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本 书 是 国外 数据 结构 与 算法 分 析 方 面 的 经 典 教材 ， 使 用 卓越 的 Java 编 程 语言 作为 实现 工具 ， 讨 论 数 
据 结构 (组 织 大 量 数据 的 方法 六 和 算法 分 析 -{( 对 算法 运行 时 间 的 估计 让 5 

随 着 计算 机 速度 的 不 断 增 加 和 功能 的 日 益 强 大 ， 人 们 对 有 效 编程 和 算法 分 析 的 要 求 也 不 断 增 长 。 本 
书 将 算法 分 析 与 最 有 效率 的 Java 程 序 的 开发 有 机 结合 起 来 ， 深 入 分 析 每 种 算法 ， 并 细致 讲解 精心 构造 程 
序 的 方法 ， 内 容 全 面 ， 续 密 严 格 。 


第 3 版 的 主要 更 新 如 下 : 


e 第 4 章 包含 AVL 树 删除 算法 的 实现 。 

e 第 5 章 进 行 了 全 面 修订 和 扩充 现在 包含 两 种 较 新 的 算法 一 一 布谷 鸟 散 列 和 跳 房 子 散 列 s 

e 第 7 章 包含 基数 排序 的 相关 内 容 ， 并 给 出 了 下 界 证 明 。 

e 第 12 章 增加 了 后 缀 树 和 后 组 数组 的 相关 材料 ， 包 括 Karkkainen 和 Sanders 的 线性 时 间 后 组 数组 构造 
算法 。 

e 更 新 书 中 的 代码 ， 使 用 了 Java 7 中 的 萎 形 运算 符 。 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 
个 领域 取得 了 垄断 性 的 优势 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈 
出 、 独 领 风骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 
的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 辟 划 了 研究 
的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流 
逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 
迫切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 上 显 
得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 发 展 的 
几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 
将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 
大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 将 工 
作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, McGraw- 
Hill, Elsevier, MIT, John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 
从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brain W. Kernighan, 
Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, 
William Stallings, Donald E. Knuth, John L. Hennessy, Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 
品 ， 以 "计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正 
体现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 相助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 中 
国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 "已 经 出 版 了 近 两 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 其 影 
印 版 经典 原 版 书库 "作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 图 
书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深化 ， 
教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反 
馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工作 提出 
建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 

华章 网 站 ，www. hzbook. com 

电子 邮件 : hzjsj(9 hzbook. com 

联系 电话 : (010)88379604 

KAU. 北京 市 西城 区 百 万 庄 南 街 1 号 

邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 
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本 书目 标 | 

本 书 新 的 Java 版 论述 数据 结构 一 一 组 织 大 量 数 据 的 方法 ， 以 及 算法 分 析 一 一 算法 运行 时 
间 的 估计 。 随 着 计算 机 的 速度 越 来 越 快 ， 对 于 能 够 处 理 大量 输 入 数据 的 程序 的 需求 变 得 日 
益 迫 切 。 可 是 ,由 于 在 输入 量 很 大 的 时 候 程序 的 低 效率 变 得 非常 明显 ， 因 此 这 又 要 求 对 效 
率 问 题 给 予 更 仔细 的 关注 。 通 过 在 实际 编程 之 前 对 算法 的 分 析 ， 我 们 可 以 确定 某 个 特定 的 
解法 是 否 可 行 。 例 如 ， 查 阅 本 书 中 一 些 特定 的 问题 ,可 以 看 到 我 们 如 何 通 过 巧妙 的 实现 ， 
将 其 处 理 大 量 数据 的 时 间 限 制 从 几 个 世纪 减 至 不 到 1 秒 。 因 此 ,我 们 在 提出 所 有 算法 和 数据 结 
构 时 都 会 阐释 其 运行 时 间 。 在 某 些 情况 下 ， 对 于 影响 实现 的 运行 时 间 的 一 些微 小 细节 都 需要 认 
真 探究 。 

一 旦 确定 了 解法 ， 接 着 就 要 编写 程序 。 随 着 计算 机 功能 的 日 益 强 大 ， 它 们 必须 解决 的 问题 
也 变 得 更 加 庞大 和 复杂 ， 这 就 要 求 我 们 开发 更 加 复杂 的 程序 。 本 书 的 目的 是 同时 教授 学 生 良 好 
的 程序 设计 技巧 和 算法 分 析 能 力 ， 使 得 他 们 能 够 以 最 高 的 效率 开发 出 这 种 程序 。 

本 书 适 用 于 高 级 数据 结构 (CS7 ) 课程 或 是 第 一 年 研究 生 的 算法 分 析 课 程 。 学 生 应 该 掌握 一 
些 中 级 编程 知识 ， 包 括 基于 对 象 的 程序 设计 和 递归 等 内 容 ， 并 有 具备 一 些 离散 数学 的 背景 。 


第 3 版 中 最 显著 的 变化 

第 3 版 订正 了 大 量 的 错误 ， 也 修改 了 很 多 地 方 ， 以 使 内 容 更 加 清晰 。 此 外 还 有 以 下 修订 : 

e 第 4 章 包括 了 AVL 树 的 删除 算法 一 一 这 也 是 读者 经 常 需要 的 内 容 。 

e 第 5 章 进 行 了 大 量 修改 和 扩充 ， 现 在 包含 两 种 新 算法 : 布谷 鸟 散 列 ( cuckoo hashing) 和 跳 
房子 散 列 (hopscotch hashing) 。 此 外 还 增加 了 一 节 讨 论 通用 散 列 法 。 

e 第 7 章 现在 包含 了 基数 排序 的 内 容 ， 并 且 增 加 了 一 节 讨 论 下 界 的 证 明 。 

e 第 8 章 用 到 Seidel 和 Sharir 提出 的 新 的 并 查 集 分 析 ， 并且 证 明了 OC Ma CM, N)) P, mi 
不 是 前 一 版 中 比较 弱 的 O( Mlog* N) Ao 

e 第 12 章 增加 了 后 缀 树 和 后 缀 数组 的 内 容 ， 包 括 Karkkainen 和 Sanders 提出 的 构造 后 级 数 
组 的 线性 时 间 算 法 (附带 实现 ) 。 关 于 确定 性 跳跃 表 和 AA 树 的 章节 被 删除 。 

e 通 篇 代码 已 做 更 新 ， 使 用 了 -Java 7 的 菱形 运算 符 。 


处 理 方 法 

虽然 本 书 的 内 容 大 部 分 都 与 语言 无 关 ， 但 是 ， 程 序 设计 还 是 需要 使 用 某 种 特定 的 语言 。 正 
如 书 名 所 示 ， 我 们 为 本 书 选 择 了 Javas 

人 们 常常 将 Java FC ++ 比较 。Java 具有 许多 优点 ,程序 员 常常 把 Java 看 成 是 一 种 比 C++ 
更 安全 、 更 具有 可 移植 性 并 且 更 容易 使 用 的 语言 。 因 此 ， 这 使 得 它 成 为 讨论 和 实现 基础 数据 结 
构 的 一 种 优秀 的 核心 语言 。Java 的 其 他 重要 的 方面 ， 诸 如 线程 和 GUI( 图 形 用 户 界面 )， 虽然 很 
重要 , 但 是 本 书 并 不 需要 ， 因 此 也 就 不 再 讨论 。 

完整 的 Java 和 C++ 版 数据 结构 均 在 互联 网 上 提供 。 我 们 采用 相似 的 编码 约定 以 使 得 这 两 
种 语言 之 间 的 对 等 性 更 加 明显 。 








内 容 概述 


第 1 章 包 含 离散 数学 和 递归 的 一 些 复习 材料 。 我 相信 熟练 掌握 递归 的 唯一 办 法 是 反复 不 断 

地 研读 一 些 好 的 用 法 。 因 此 ， 除 第 5 章 外 ,递归 遍及 本 书 每 一 章 的 例子 之 中 。 第 1 章 还 介绍 了 
- 些 相关 内 容 ， 作 为 对 Java 中 “继承 ”的 复习 ， 包 括 对 Java 泛 型 的 讨论 。 

第 2 章 讨论 算法 分 析 ， 阐 述 渐 近 分 析 及 其 主要 缺点 ， 提 供 了 许多 例子 ， 包 括 对 对 数 级 运行 
时 间 的 深入 分 析 。 我 们 通过 直观 地 把 递归 程序 转变 成 迭代 程序 ， 对 一 些 简 单 递 归程 序 进行 了 分 
析 。 更 复杂 的 分 治 程序 也 在 此 介绍 ， 不 过 有 些 分 析 ( 求 解 递 推 关系 ) 要 推迟 到 第 7 章 再 进行 详细 
讨论 。 

第 3 章 介 绍 表 、 栈 和 队列 。 包 括 对 Collections API ArrayList 类 和 LinkedList 类 的 讨 
it, Hifi | Collections API ArrayList 类 和 LinkedList 类 的 一 个 重要 子 集 的 若干 实现 。 

第 4 章 讨 论 树 ， 重 点 是 查找 树 ， 包 括 外 部 查找 树 (B- 树 ) 。UNIX 文件 系统 和 表达 式 树 是 作 
为 例子 来 介绍 的 。 这 一 章 还 介绍 了 AVL 树 和 伸展 树 。 查 找 树 实 现 细 节 的 更 仔细 的 处 理 可 在 第 
12 章 找到 。 树 的 另外 一 些 内 容 ( 如 文件 压缩 和 博弈 树 ) 推 迟到 第 10 章 讨 论 。 外 部 介质 上 的 数据 
结构 作为 若干 章 中 的 最 后 论题 来 考虑 。 对 于 Collections API TreeSet 类 和 TreeMap 类 的 讨论 ， 
则 通过 一 个 重要 的 例子 来 展示 三 种 单独 的 映射 在 求解 同一 个 问题 中 的 使 用 。 

第 5 章 讨论 散 列 表 ， 既 包括 经 典 算法 ， 如 分 离 链接 法 和 线性 及 平方 探测 法 ， 同 时 也 包括 几 
个 新 算法 ， 如 布谷 鸟 散 列 和 跳 房子 散 列 。 本 章 还 讨论 了 通用 散 列 法 ， 并且 在 章 末 讨论 了 可 扩 
散 列 。 

第 6 章 是 关于 优先 队列 的 。 二 叉 堆 也 在 这 里 讲授 ， 还 有 些 附加 的 材料 论述 优先 队列 某 些 理 
论 上 有 趣 的 实现 方法 。 斐 波 那 契 堆 在 第 11 章 讨论 ， 配 对 堆 在 第 12 章 讨论 。 

第 7 章 论述 排序 。 这 一 章 特别 关注 编程 细节 和 分 析 。 所 有 重要 的 通用 排序 算法 均 在 该 章 进 
行 了 讨论 和 比较 。 此 外 ,还 对 四 种 排序 算法 做 了 详细 的 分 析 ， 它 们 是 插入 排序 、 和 希 尔 排 序 、 堆 
排序 以 及 快速 排序 。 这 一 版 新 增 的 是 基数 排序 以 及 对 选择 类 问题 的 下 界 的 证 明 。 本 章 末 尾 讨论 
了 外 部 排序 。 

第 8 章 讨论 不 相交 集 算 法 并 证 明 其 运行 时 间 。 分 析 部 分 是 新 的 。 这 是 简短 且 特 殊 的 一 章 ， 
如 果 不 讨 论 Kruskal 算法 则 可 跳 过 该 章 。 

第 9 章 讲授 图 论 算法 。 图 论 算法 之 所 以 有 趣 ， 不 仅 因 为 它们 在 实践 中 经 常 出 现 ， 而 且 还 因 
为 它们 的 运行 时 间 强 烈 地 依赖 于 数据 结构 的 恰当 使 用 。 实 际 上 ， 所 有 标准 算法 都 和 适用 的 数据 
结构 、 伪 代码 以 及 运行 时 间 的 分 析 一 起 介绍 。 为 了 恰当 地 理解 这 些 问题 ,我 们 对 复杂 性 理论 
(包括 NP- 完 全 性 和 不 可 判定 性 ) 进 行 了 简短 的 讨论 。 

第 10 章 通 过 考察 一 般 性 的 问题 求解 技术 来 介绍 算法 设计 。 本 章 通过 大 量 的 例子 来 增强 理 
解 。 这 一 章 及 后 面 各 章 使 用 的 伪 代 码 使 得 读者 在 理解 例子 时 不 会 被 实现 的 细节 所 困扰 。 

第 11 章 处 理 摊 还 分 析 ， 主 要 分 析 三 种 数据 结构 ， 它 们 分 别 在 第 4 章 、 第 6 章 以 及 本 章 ( 斐 
波 那 契 堆 ) 介 绍 。 

第 12 章 讨论 查找 树 算法 、 后 级 树 和 数组 、k-d 树 和 配对 堆 。 不 同 于 其 他 各 章 ， 本 章 给 出 了 
查找 树 和 配对 堆 完 整 且 和 仔细 的 实现 。 材 料 的 安排 使 得 教师 可 以 把 一 些 内 容纳 入 其 他 各 章 的 讨论 
之 中 。 例 如， 第 12 章 中 的 自 项 向 下 红 黑 树 可 以 和 (第 4 章 的 )AVL 树 一 起 讨论 。 

第 1 ~9 章 为 大 多 数 一 学 期 的 数据 结构 课程 提供 了 足够 的 材料 。 如 果 时 间 允 许 ， 那么 第 10 
章 也 可 以 包括 进来 。 研 究 生 的 算法 分 析 课程 可 以 使 用 第 7 ~ 11 章 的 内 容 。 第 11 章 所 分 析 的 高 
级 数据 结构 可 以 很 容易 地 被 前 面 各 章 所 提 及 。 第 9 章 里 所 讨论 的 NP- 完 全 性 太 过 简短 ， 不 适用 
于 这 样 的 课程 。 另 外 再 用 一 部 NP- 完 全 性 方面 的 著作 作为 本 教材 的 补充 可 能 是 比较 有 益 的 。 


练习 


每 章 末 尾 提供 的 练习 与 正文 中 所 述 内 容 的 顺序 相 一 致 。 最 后 的 一 些 练习 是 对 应 整 章 而 不 是 
针对 特定 的 某 一 节 的 。 难 度 较 大 的 练习 标 有 一 个 星 号 ， 更 具 挑 战 的 练习 标 有 两 个 星 号 。 


参考 文献 


参考 文献 列 于 每 章 的 最 后 。 通 常 ， 这 些 参考 文献 或 者 是 具有 历史 意义 的 、 给 出 书 中 材料 的 
原始 出 处 ， 或 者 阐述 对 书 中 给 出 的 结果 的 扩展 和 改进 。 有 些 文献 为 一 些 练习 提供 了 解法 。 


补充 材料 


下 面 的 补充 材料 在 www. pearsonhighered. com/cssupport 对 所 有 读者 公开 : 

e 例子 程序 的 源 代 码 

此 外 ， 下 述 材 料 仅 提供 给 经 培 生 教师 资源 中 心 (Pearson 's Instructor Resource Center, IRC) 
(www. pearsonhighered. com/ire ) 认可 的 教师 。 有 意 者 请 访问 IRC 或 联系 培 生 的 校园 代表 以 获得 
访问 权限 。” 

e 部 分 练习 的 解答 

e 来 自 本 书 的 一 些 附 图 
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Data Structures and Algorithm Analysis in Java, Third Edition 


引 论 





在 这 一 章 , 我 们 阐述 本 书 的 目的 和 目标 并 简要 复习 离散 数学 以 及 程序 设计 的 一 些 概念 。 我 
们 将 要 : 

© 看 到 程序 对 于 合理 的 大 量 输入 的 运行 性 能 与 其 在 适量 输入 下 运行 性 能 的 同等 重要 性 。 

© 概括 为 本 书 其 余部 分 所 需要 的 基本 的 数学 基础 。 

e 简要 复习 递归 。 

e 概括 用 于 本 书 的 Java 语言 的 某 些 重要 特点 。 


1.1 本 书 讨论 的 内 容 


设 有 一 组 N 个 数 而 要 确定 其 中 第 上 个 最 大 者 ， 我 们 称 之 为 选择 问题 (selection problem) 。 大 
多 数学 习 过 一 两 门 程序 设计 课程 的 学 生 写 一 个 解决 这 种 问题 的 程序 不 会 有 什么 困难 。“ 明 显 
的 ”解决 方法 是 相当 多 的 。 

该 问题 的 一 种 解法 就 是 将 这 N 不 数 读 进 一 个 数组 中 , 再 通过 某 种 简单 的 算法 ， 比 如 冒 泡 排 
序 法 ,以 递 万 顺 序 将 数组 排序 ,然后 返回 位 置 上 的 元 素 。 

稍微 好 一 点 的 算法 可 以 先 把 前 个 元 素 读 人 数组 并 ( 以 递 大 的 顺序 ) 对 其 排序 。 接 着 , MGR 
下 的 元 素 再 逐个 读 人 。 当 新 元 素 被 读 到 时 ,如 果 它 小 于 数组 中 的 第 大 个 元 素 则 忽略 之 ,否则 就 
将 其 放 到 数组 中 正确 的 位 置 上 ;同时 将 数组 中 的 一 个 元 素 挤 出 数组 。 当 算法 终止 时 ,位 于 第 
个 位 置 上 的 元 素 作为 答案 返回 。 

这 两 种 算法 编码 都 很 简单 ,建议 读者 试 一 试 。 此 时 我 们 自然 要 问 : 哪个 算法 更 好 ? 哪个 算 
法 更 重要 ? 还 是 两 个 算法 都 足够 好 ? 使 用 三 千 万 个 元 素 的 随机 文件 和 上 = 15 000 000 进行 模拟 将 
发 现 ,两 个 算法 在 合理 的 时 间 量 内 均 不 能 结束 ; 每 种 算法 都 需要 计算 机 处 理 若干 天 才能 算 完 
(虽然 最 后 还 是 给 出 了 正确 的 答案 ) 。 在 第 7 章 将 讨论 另 一 种 算法 ,该 算法 将 在 一 秒 钟 左右 给 出 
问题 的 解 。 因 此 ， 虽 然 我 们 提出 的 两 个 算法 都 能 算出 结果 , 但 是 它们 不 能 被 认为 是 好 的 算法 ， 
因为 对 于 第 三 种 算法 能 够 在 合理 的 时 间 内 处 理 的 输入 数据 量 而 言 , 这 两 种 算法 是 完全 不 切实 
际 的 。 

第 二 个 问题 是 解决 一 个 流行 的 字谜。 输入 是 由 一 些 字 [1 2 3 4] 
母 构成 的 一 个 二 维 数组 以 及 一 组 单词 组 成 。 目 标 是 要 找 出 | 
字谜 中 的 单词 ,这 些 单词 可 能 是 水 平 、 垂 直 或 沿 对 角 线 上 











1 
任何 方向 放置 的 。 作 为 例子 , 图 1-1 所 示 的 字谜 由 单词 w a Us 
this, two, fat 和 that 组 成 。 单 词 this 从 第 一 行 第 一 列 的 位 3 o A h Š 
置 即 (1，1 ) 处 开始 并 延伸 至 (1，4) ; 单词 two 从 (1，1) 到 4 f P d i 
(3, 1); fat 从 (4, 1) 到 (2,，3); 而 that WA (4, 4) 到 En adus 


(1, 1). 

现在 至 少 也 有 两 种 直观 的 算法 来 求解 这 个 问题 。 对 单词 表 中 的 每 个 单词 , 我 们 检查 每 一 个 
有 序 三 元 组 ( 行 、 列 、 方 向 ) 验 证 是 否 有 单词 存在 。 这 需要 大 量 檬 套 的 for 循环 , 但 它 基本 上 是 
直观 的 算法 。 

也 可 以 这 样 , 对 于 每 一 个 尚未 越 出 谜 板 边缘 的 有 序 四 元 组 ( 行 、 列 、 方 向 、 字 符 数 ) 我 们 可 
以 测试 是 否 所 指 的 单词 在 单词 表 中 。 这 也 导致 使 用 大 量 租 套 的 for 循环 。 如 果 在 任意 单词 中 
的 最 大 字符 数 已 知 , 那么 该 算法 有 可 能 节省 一 些 时 间 。 
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上 述 两 种 方法 相对 来 说 都 不 难 编码 并 可 求解 通常 发 表 于 杂志 上 的 许多 现实 的 字迹 游戏。 这 
些 字 谜 通常 有 16 1116 列 以 及 40 个 左右 的 单词 。 然而 , 假设 我 们 把 字谜 变 成 为 只 给 字谜 板 
( puzzle board) 而 单词 表 基 本 上 是 一 本 英语 词典 , 则 上 面 提出 的 两 种 解法 均 需 要 相当 长 的 时 间 来 
解决 这 个 问题 , 从 而 这 两 种 方法 都 是 不 可 接受 的 。 不 过 , 这 样 的 问题 还 是 有 可 能 在 数秒 内 解决 
的 , 甚至 单词 表 可 以 很 大 。 

在 许多 问题 当中 , 一 个 重要 的 观念 是 : 写 出 一 个 工作 程序 并 不 够 。 如 果 这 个 程序 在 巨大 的 
数据 集 上 运行 , 那么 运行 时 间 就 变 成 了 重要 的 问题 。 我 们 将 在 本 书 看 到 对 于 大 量 的 输入 如 何 佑 
计 程 序 的 运行 时 间 , 尤其 是 如 何在 尚未 具体 编码 的 情况 下 比较 两 个 程序 的 运行 时 间 。 我 们 还 将 
看 到 彻底 改进 程序 速度 以 及 确定 程序 瓶颈 的 方法 。 这 些 方法 将 使 我 们 能 够 发 现 需要 我 们 集中 精 
力 努 力 优化 的 那些 代码 段 。 


1.2 数学 知识 复习 


本 节 列 出 一 些 需 要 记忆 或 是 能 够 推导 出 的 基本 公式 , 并 从 推导 过 程 复习 基本 的 证 明 方法 。 
1.2.1 指数 


人 pto 
X" +X" 2X" X X^ 
OF 2" p 
1.2.2 对 数 
在 计算 机 科学 中 , 除非 有 特别 的 声明 , 否则 所 有 的 对 数 都 是 以 2 为 底 的 。 
定义 1.1 X'=B 4H log;B =A, 
由 该 定义 可 以 得 到 几 个 方便 的 等 式 。 





定理 1. 1 
log..B 
lo B poA! n B, C50, A¥1 

WEBB: 

4X =log;B, Y -log,A, WK Z =log,B。 此 时 由 对 数 的 定义 ，C" =B, C =4 以 及 4 =B, 联 
合 这 三 个 等 式 则 产生 (CC ) C 2 B, Alt, 和 = YZ, 这 意味 着 Z =X/Y, 定理 得 证 。 口 

定理 1.2 

logAB = logA + logB; A, B>O 

证 明 : - 

A> X =logB, Y =logA, 以 及 Z=log4B。 此 时 由 于 假设 默认 的 底 为 2, 2" =A, 2 2 B, 2’ = 
AB, 联合 最 后 的 三 个 等 式 则 有 2 2 22^ =4B。 因 此 X+Y=Z, 这 就 证 明了 该 定理 。 口 


其 他 一 些 有 用 的 公式 如 下 ,它们 都 能 够 用 类 似 的 方法 推导 。 
logA/B = logA — logB 
log( A^) = BlogA 
logX < X XI PUR HY X >O 成 立 
log 1 20, log2 21, log 1024 210, log 1048576 =20 
1.2.3 级 数 

最 容易 记忆 的 公式 是 

AM = mt as 1 


1-20 


žl 论 


和 
N r AN Ei 





在 第 二 个 公式 中 , 如 果 0 <4<1, W 


E id 1 

2,4 * 1-3 

“ON Too 时 该 和 趋向 于 1/(1 -4), 这 些 公 式 是 “几何 级 数 ” 公 式 。 
我 们 可 以 用 下 面 的 方法 推导 关于 yA (0 <A <1) 的 公式 。 令 5 是 其 和 。 此 时 


S=1+A SA +A +A +A 4 


于 是 
AS =A +A?’ +A’ +A +A? + 
如 果 我 们 将 这 两 个 方程 相 减 (这 种 运算 只 允许 对 收敛 级 数 进行 ), 等 号 右边 所 有 的 项 相 消 , 只 留 下 1: 
S-AS =1 
即 
S "- x 


它 是 一 个 经 常 出 现 的 和 。 我 们 写成 


可 以 用 相同 的 方法 计算 > V2, 
|] .2.35 0.39 
At t AA) 


$2y* PPP Y 


用 2 乘 之 得 到 
Salta xem 
将 这 两 个 方程 相 减 得 到 
S=1 Ei 41.1.1 
Hern ae ae Tog ee 
2 4 2.2.2 
因此 , S22. 
分 析 中 另 一 种 常用 类 型 的 级 数 是 算术 级 数 。 et aa 
yia NON +1) _ 
2 -7 
s @ 





例如 , AKI HI245-484---(3k-1), 将 其 改写 为 3(1 +2+3++…+k) 一 (1+1+1+ 
然 , 它 就 是 3k(k+1)/2 -kk。 男 一 种 记忆 的 方法 则 是 将 第 一 项 与 最 后 一 项 相 加 (和 为 3k+1), 第 
二 项 与 倒数 第 二 项 相 加 (和 也 是 3k +1), 等 等 。 由 于 有 k/2 个 这 样 的 数 对 ,因此 总 和 就 是 
这 与 前 面 的 答案 相同 。 





k(3k+1)/2, 
现在 介绍 下 面 两 个 公式 ， 不 过 它们 就 没有 那么 常见 了 。 
2 MATES TD ~ 
ye = MN+ DON +1) 
N F xe 
Yi 一 (TTA kA-1 
这 个 公式 在 计算 机 科学 中 的 


k= -1 时 , 后 一 个 公式 不 成 立 。 此 时 我 们 需要 下 面 的 公式 ， 
使 用 要 远 比 在 数学 其 他 科目 中 使 用 得 多 。 数 H, 叫 作 调和 数 , 其 和 叫 作 调 和 和 。 下 面 近似 式 中 


的 误差 趋 回 于 y=0. 57 721 566, 称 为 欧 拉 常数 ( =e s constant) > 
-5-4 — = log, N 


以 下 两 个 公式 只 不 过 是 一 般 的 代数 运算 : 





YAN) = NK) 


2/0) = DAD - VA) 

1.2.4 模 运 算 

WRN ERR A-B, 那么 就 说 4 与 B 模 NN 同 余 , 记 为 4=B(mod N) 。 直 观 地 看 , 这 意味 着 无 
WE ARE BENE, 所 得 余数 都 是 相同 的 。 于 是 , 81 =61=1(mod 10)。 如 同等 号 的 情形 
一 样 , #7 A=B(mod N), Il) A+C=B + C( mod N) 以 及 AD=BD( mod N), 

有 许多 定理 适用 模 运 算 , 其 中 有 些 特别 需要 用 到 数论 来 证 明 。 我 们 将 尽量 少 使 用 模 运 算 ， 
ROPE, 前面 的 一 些 定理 也 就 足够 了 。 
1.2.5 证 明 的 方法 

证 明 数 据 结构 分 析 中 的 结论 的 两 种 最 常用 的 方法 是 归纳 法 证 明和 反 证 法 证 明 ( 偶尔 也 被 迫 
用 到 只 有 教授 们 才 使 用 的 证 明 )。 证 明 一 个 定理 不 成 立 的 最 好 的 方法 是 举 出 一 个 反例 。 

归纳 法 证 明 

由 归纳 法 进行 的 证 明 有 两 个 标准 的 部 分 。 第 一 步 是 证 明基 准 情形 ( base case) ,就 是 确定 定 
理 对 于 某 个 ( 某 些 ) 小 的 (通常 是 退化 的 ) 值 的 正确 性 ; 这 一 步 几 乎 总 是 很 简单 的 。 接 着 , 进行 归 
纳 假设 (inductive hypothesis) 。 一 般 说 来 , 它 指 的 是 假设 定理 对 直到 某 个 有 限 数 上 大 的 所 有 的 情况 
都 是 成 立 的 。 然 后 使 用 这 个 假设 证 明定 理 对 下 一 个 值 (通常 是 上 +1) 也 是 成 立 的。 至 此 定理 得 
证 (在 上 是 有 限 的 情形 下 ) 。 

作为 一 个 例子 ; 我 们 证 明 斐 波 那 奥数 ; 而 =1 F, 21, F,-2, F, 23, F, 25, =, Fi 
F, ,* FS, 满足 对 i=1, 有 F< (5/3)'( 有 些 定义 规定 F, 20, 这 只 不 过 将 该 级 数 做 了 一 次 平 
移 )。 为 了 证 明 这 个 不 等 式 , 我 们 首先 验证 定理 对 简单 的 情形 成 立 。 容 易 验 证 =1<5/3 及 
F, =2 <25/9, 这 就 证 明了 基准 情形 。 假 设 定理 对 于 i=1，2，…, 上 成 立 , 这 就 是 归纳 假设 。 为 
TEREM, 我 们 需要 证 明 F,,, < (5/3)"* 。 根 据 定义 得 到 

Fra =F, +F; 
将 归纳 假设 用 于 等 号 右边 , 得 到 
后 
= (3/5) (5/3)**! + (9/25) (5/3)**' 


化 简 后 为 
F,,, € (375 +9/25) (5/3)"*! = (24/25) (5/3)**' < (5/3)**' 

这 就 证 明了 这 个 定理 。 

作为 第 二 个 例子 , 我 们 建立 下 面 的 定理 。 

定理 1.3 

eo _NCN+HTT(2N +1) 
如 果 N>1, NE Y? = MAAD HD) 
WEBB: 


用 数学 归纳 法 证 明 。 对 于 基准 情形 , 容易 看 到 ， 当 N=1 时 定理 成 立 。 对 于 归纳 假设 , 设 定 
理 对 1<k<N 成立 。 我 们 将 在 该 假设 下 证 明定 理 对 于 N+1 也 是 成 立 的 。 我 们 有 


ve i on +(N+1)’ 
应 用 归纳 假设 得 到 


y = MN+ (N+1) ir 
i=l Ei 6 


+ (N41)? =(N+1)| + (N+1) 


=(N+1) 





2N +7N+6 (N+1)(N+2)(2N+3) 
6 ii 6 


dl 论 5 








因此 
ye " (N +1)[(N +1) HI] *1] 

定理 得 证 。 口 

通过 反例 证 明 

公式 F< 及 不 成 立 。 证 明 这 个 结论 的 最 容易 的 方法 就 是 计算 Fa =144 >11 。 

反 证 法 证 明 

反 证 法 证 明 是 通过 假设 定理 不 成 立 , 然后 证 明 该 假设 导致 某 个 已 知 的 性 质 不 成 立 , 从 而 原 
假设 是 错误 的 。 一 个 经 典 的 例子 是 证 明 存 在 无 穷 多 个 素数 。 为 了 证 明 这 个 结论 , 我 们 假设 定理 
不 成 立 。 于 是 ,存在 某 个 最 大 的 素数 Po SP, Pay 0, P, 是 依 序 排列 的 所 有 素数 并 考虑 

N=P,P,P,-P, +1 

显然 , N 是 比 已 大 的 数 , 根据 假设 入 不 是 素数 。 可 是 , Pi, Pu, 0, P, 都 不 能 整除 V,， 因 为 除 
得 的 结果 总 有 余数 1。 这 就 产生 一 个 矛盾 ,因为 每 一 个 整数 或 者 是 素数 , 或 者 是 素数 的 乘积 。 
因此 , P, 是 最 大 素数 的 原 假设 是 不 成 立 的 , 这 正 意味 着 定理 成 立 。 


1.3 递归 简 论 


我 们 熟悉 的 大 多 数 数学 函数 都 是 由 一 个 简单 公式 来 描述 的 。 例 如 , 我 们 可 以 利用 公式 
C=5(F -32)/9 
将 华氏 温度 转换 成 摄氏 温度 。 有 了 这 个 公式 , 写 一 个 Java 方法 就 太 简单 了 。 除 去 程序 中 的 说 明 
和 大 括号 外 , 这 一 行 的 公式 正好 翻译 成 一 行 Java 程序 。 
有 时 候 数 学 函数 以 不 太 标准 的 形式 来 定义 。 例 如 , 我 们 可 以 在 非 负 整数 集 上 定义 一 个 函数 
f, 它 满足 K0) =0 A fe) 22/(x -1) +s MISERA) =1, f(2) =6, fB) = 
21, 以 及 f(4) =58。 当 一 个 函数 用 它 自己 来 定义 时 就 称 为 是 递归 ( recursive) 的 。Java 允许 函数 
是 递归 的 。” 


public static int f( int x ) 


但 重要 的 是 要 记 住 , Java 提供 的 仅仅 是 遵 | 2 | 

循 递归 思想 的 一 种 尝试 。 不 是 所 有 的 数学 递 eet 

归 函 数 都 能 被 有 效 地 (或 正确 地 ) 由 Java 的 递 else 

归 模 拟 来 实现 。 上 面 例子 说 的 是 递归 函数 /应 Mem EAS cL E NAE 
该 只 用 几 行 就 能 表示 出 来 , 正如 非 递归 函数 一 


FÉ. Ed 1-2 指出 了 函数 /的 递归 实现 。 图 1-2 一 个 递归 方法 

第 3 行 和 第 4 行 处 理 基准 情况 (base case)， 即 此 时 函数 的 值 可 以 直接 算出 而 不 用 求助 递归 。 
TEM f(x) 22/(x -1) ex^ ERA SO) 20 这 个 事实 在 数学 上 没有 意义 一 样 ，Java 的 递归 方法 若 
无 基准 情况 也 是 毫 无 意义 的 。 第 6 行 执行 的 是 递归 调用 。 

关于 递归 , 有 几 个 重要 并 且 可 能 会 被 混淆 的 概念 。 一 个 常见 的 问题 是 : 它 是 否 就 是 循环 推 
理 ( circular logic)? BRE: 虽然 我 们 定义 一 个 方法 用 的 是 这 个 方法 本 身 , 但 是 我 们 并 没有 用 方 
法 本 身 定义 该 方法 的 一 个 特定 的 实例 。 换 名 话说, 通过 使 用 f(5 ) 来 得 到 了 (5 ) 的 值 才 是 循环 的 。 
通过 使 用 f(4) 得 到 /(5) 的 值 不 是 循环 的 ,当然 , 除非 (4) 的 求 值 又 要 用 到 对 f(5) 的 计算 。 两 
个 最 重要 的 问题 恐怕 就 是 如 何 做 和 为 什么 做 的 问题 了 。 如 何 和 为 什么 的 问题 将 在 第 3 章 正 式 解 
决 。 这 里 , 我 们 将 给 出 一 个 不 完全 的 描述 。 

实际 上 , 递归 调用 在 处 理 上 与 其 他 调用 没有 什么 不 同 。 如 果 以 参数 4 的 值 调 用 函数 f, 那么 
程序 的 第 6 行 要 求 计算 2*f(3) +4*4。 这 样 , 就 要 执行 一 个 计算 f(3) 的 调用 , 而 这 又 导致 计 
算 2*f(2) +3*3。 因 此 , 又 要 执行 男 一 个 计算 7(2) 的 调用 , 而 这 意味 着 必须 求 出 2*f(1)+ 





加 ”对 于 数值 计算 使 用 递归 通常 不 是 个 好 主意 。 我 们 在 解释 基本 概念 时 已 经 说 过 。 
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2*2 的 值 。 为 此 , 通过 计算 2*/(0) +1 1 而 得 到 f(1)。 此 时 ,/(0) 必 须 被 赋值 。 由 于 这 属于 
基准 情况 , 因此 我 们 事先 知道 0) =0。 从 而 f(1) 的 计算 得 以 完成 , 其 结果 为 1。 然 后 , /2)、 
/(3) 以 及 最 后 /(4) 的 值 都 能 够 计算 出 来 。 跟 踪 挂 起 的 函数 调用 (这 些 调 用 已 经 开始 但 是 正 等 待 
着 递归 调用 来 完成 ) 以 及 它们 的 变量 的 记录 工作 都 是 由 计算 机 自动 完成 的 。 然 而 , 重要 的 问题 
在 于 , 递归 调用 将 反复 进行 直到 基准 情形 出 现 。 例如, 计算/( -1) 的 值 将 导致 调用 /( -2)、 
f( -3) 等 等 。 由 于 这 将 不 可 能 出 现 基准 情形 , 因此 程序 也 就 不 可 能 算出 答案 。 偶 尔 还 可 能 发 生 
更 加 微妙 的 错误 , 我 们 将 其 展示 在 图 1-3 中 。 图 1-3 中 程序 的 这 种 错误 是 第 6 行 上 的 bad(1) 定 
义 为 bad(1)。 显 然 , 实际 上 bad(1 ) 究 况 是 多 少 , 这 个 定义 给 不 出 任何 线索 。 因 此 , 计算 机 将 
会 反复 调用 bad(1) 以 期 解 出 它 的 值 。 最后, 计算 机 簿 记 系 统 将 占 满 内 存 空间 , 程序 崩溃。 一 
般 情形 下 , 我 们 会 说 该 方法 对 一 个 特殊 情形 无 效 , 而 在 其 他 情形 是 正确 的 。 但 此 处 这 么 说 则 不 
正确 , 因为 baa(2) 调 用 bad(1)。 因 此 , bad 





(2) 也 不 能 求 出 值 来 。 不 仅 如 此 , bad (3 )、 : pes static int bad( int n ) 
bad(4) #l bad (5) #8 XE RH baa (2), 3 if( n == 0) 
[9] bad(2) 算 不 出 值 , 它们 的 值 也 就 不 能 求 出 。 | 3 ae 
事实 上 , 除了 0 之 外 , 这 个 程序 对 的 任何 非 | 6 return bad( n/ 3*1) *n- 1; 
7 


负 值 都 无 效 。 对 于 递归 程序 , 不 存在 像 “特殊 
情形 ”这 样 的 情况 。 

上 面 的 讨论 导致 递归 的 前 两 个 基本 法 则 : BD ages 

1. 基准 情形 (base case) 。 必 须 总 要 有 某 些 基准 的 情形 , 它们 不 用 递归 就 能 求解 。 

2. 不 断 推进 (making progress) 。 对 于 那些 要 递归 求解 的 情形 , 递归 调用 必须 总 能 够 朝 着 一 
个 基准 情形 推进 。 

在 本 书 中 我 们 将 用 递归 解决 一 些 问题 。 作 为 非 数 学 应 用 的 一 个 例子 , 考虑 一 本 大 词典 。 词 
典 中 的 词 都 是 用 其 他 的 词 定义 的 。 当 查 一 个 单词 的 时 候 , 我 们 不 是 总 能 理解 对 该 词 的 解释 , 于 
是 我 们 不 得 不 再 查找 解释 中 的 一 些 词 。 同 样 , 对 这 些 词 中 的 某 些 地 方 我 们 又 不 理解 , 因此 还 
要 继续 这 种 查找 。 因 为 词典 是 有 限 的 , 所 以 实际 上 或 者 我 们 最 终 要 查 到 一 处 , 明白 了 此 处 解 
释 中 所 有 的 单词 (从 而 理解 这 里 的 解释 , 并 按照 查找 的 路 径 回 查 其 余 的 解释 ) 或 者 我 们 发 现 
这 些 解 释 形成 一 个 循环 , 无 法 理解 其 最 终 含 义 , 或 者 在 解释 中 需要 我 们 理解 的 某 个 单词 不 在 
这 本 词典 里 。 

我 们 理解 这 些 单词 的 递归 策略 如 下 : 如 果 知 道 一 个 单词 的 含义 , 那么 就 算 我 们 成 功 ; 否则 ， 
就 在 词典 里 查找 这 个 单词 。 如 果 我 们 理解 对 该 词 解释 中 的 所 有 的 单词 , 那么 又 算 我 们 成 功 ; 否 
则 , 通过 递归 查找 一 些 我 们 不 认识 的 单词 来 “算出 ”对 该 单词 解释 的 含义 。 如 果 词 典 编纂 得 完 
RAK, 那么 这 个 过 程 就 能 够 终止 ; 如 果 其 中 一 个 单词 没有 查 到 或 是 循环 定义 (解释 ), 那么 这 
个 过 程 则 循环 不 定 。 

打印 输出 整数 à i 

设 有 一 个 正 整 数 n 并 希望 把 它 打 印 出 来 。 我 们 的 例 程 的 名 字 为 printout(n)。 假 设 仅 有 
的 现成 VO 例 程 将 只 处 理 单个 数字 并 将 其 输出 到 终端 。 我 们 为 这 种 例 程 命名 为 printDigit; 
例如 , printDigit(4) 将 输出 4 到 终端 。 

递归 将 为 该 问题 提供 一 个 非常 漂亮 的 解 。 要 打印 76234, 我 们 首先 需要 打印 出 7623, 然后 
再 打印 出 4。 第 二 步 用 语句 printDigit(n$ 10) 很 容易 完成 , 但 是 第 一 步 却 不 比 原 问题 简单 
多 少 。 它 实际 上 是 同一 个 问题 , 因此 可 以 用 语句 printout(n/10) 递 归 地 解决 它 。 

这 告诉 我 们 如 何 去 解 决 一 般 的 问题 , 不 过 我 们 仍然 需要 确认 程序 不 是 循环 不 定 的 。 由 于 我 
们 尚未 定义 一 个 基准 情况 , 因此 很 清楚 , 我 们 仍然 还 有 些 事情 要 做 。 如 果 0<n<10, 那么 基准 
情形 就 是 printDigit(n)。 现 在 , printout(n) 已 对 每 一 个 从 0 到 9 的 正 整数 定义 ,而 更 大 

的 正 整数 则 用 较 小 的 正 整数 定义 。 因 此 , 不 存在 循环 的 问题 。 整 个 方法 在 图 1-4 中 指出 。 
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public static void printOut( int n ) /* Print nonnegative n */ 


if( n >= 10 ) 
printOut( n / 10 ); 
printDigit( n % 10 ); 





图 1-4 打印 整数 的 递归 例 程 

我 们 没有 努力 去 高 效 地 做 这 件 事 。 我 们 本 可 以 避免 使 用 mod 例 程 ( 它 是 非常 耗 时 的 ) ， 因 为 
n9610 =n -Ln/10 ]* 10, 9 

递归 和 归纳 mE 

让 我 们 多 少 严 格 一 些 地 证 明 上 述 递归 的 整数 打印 程序 是 可 行 的 。 为 此 , 我 们 将 使 用 归纳 法 证 明 。 

定理 1. 4 

递归 的 整数 打印 算法 对 n==0 是 正确 的 。 

证 明 ( 通 过 对 所 含 数字 的 个 数 , 用 归纳 法 证 明之 ) : 

首先 , MEn 只 有 一 位 数字 , 那么 程序 显然 是 正确 的 , 因为 它 只 是 调用 一 次 printDigit。 
然后 , WprintOut 对 所 有 上 大 个 或 更 少 位 数 的 数 均 能 正常 工作 。 我 们 知道 上 +1 位 数字 的 数 可 
以 通过 其 前 上 位 数字 后 跟 一 位 最 低位 数字 来 表示 。 但 是 前 大 位 数字 形成 的 数 恰好 是 L n/10 J, 由 
归纳 假设 它 能 够 被 正确 地 打印 出 来 , 而 最 后 的 一 位 数字 是 n mod 10, 因此 该 程序 能 够 正确 打印 
出 任意 上 +1 位 数字 的 数 。 于 是 , 根据 归纳 法 , 所 有 的 数 都 能 被 正确 地 打印 出 来 。 口 

这 个 证 明 看 起 来 可 能 有 些 奇怪 , 但 它 实 际 上 相当 于 是 算法 的 描述 。 证 明 阐述 的 是 在 设计 递 
归程 序 时 , 同一 问题 的 所 有 较 小 实例 均 可 以 假设 运行 正确 , 递归 程序 只 需要 把 这 些 较 小 问题 的 
解 ( 它 们 通过 递归 奇迹 般 地 得 到 ) 结 合 起 来 形成 现行 问题 的 解 。 其 数学 根据 则 是 归纳 法 的 证 明 。 
由 此 , 我 们 给 出 递归 的 第 三 个 法 则 : 

3. 设计 法 则 ( design rule)。 假 设 所 有 的 递归 调用 都 能 运行 。 

这 是 一 条 重要 的 法 则 , 因为 它 意味 着 , 当 设 计 递 归程 序 时 一 般 没 有 必要 知道 簿 记 管 理 的 细 
T. 你 不 必 试 图 追踪 大 量 的 递归 调用 。 追 踪 具 体 的 递归 调用 的 序列 常常 是 非常 困难 的 。 当 然 ， 
在 许多 情况 下 , 这 正 是 使 用 递归 好 处 的 体现 , 因为 计算 机 能 够 算出 复杂 的 细节 。 

递归 的 主要 问题 是 隐 含 的 短 记 开销 。 虽 然 这 些 开 销 几 乎 总 是 合理 的 (因为 递归 程序 不 仅 简 
化 了 算法 设计 而 且 也 有 助 于 给 出 更 加 简洁 的 代码 ), 但 是 递归 绝 不 应 该 作为 简单 for 循环 的 代 
蔡 物 。 我 们 将 在 3.6 节 更 仔细 地 讨论 递归 涉及 的 系统 开销 。 

当 编写 递归 例 程 时 , 关键 是 要 牢记 递归 的 四 条 基本 法 则 : 

1. 基准 情形 。 必 须 总 要 有 某 些 基准 情形 , 它 无 需 递归 就 能 解 出 。 

2. 不 断 推进 。 对 于 那些 需要 递归 求解 的 情形 , 每 一 次 递归 调用 都 必须 要 使 状况 朝向 一 种 基 

3. 设计 法 则 。 假 设 所 有 的 递归 调用 都 能 运行 。 

4. 合成 效益 法 则 (compound interest rule) 。 在 求解 一 个 问题 的 同一 实例 时 , 切 勿 在 不 同 的 递 
归 调 用 中 做 重复 性 的 工作 。 

第 四 条 法 则 (连同 它 的 名 称 一 起 ) 将 在 后 面 的 章节 证 明 是 合理 的 。 使 用 递归 计算 诸如 斐 波 
那 契 数 之 类 简单 数学 函数 的 值 的 想法 一 般 来 说 不 是 一 个 好 主意 , 其 道理 正 是 根据 第 四 条 法 则 。 
只 要 在 头脑 中 记 住 这 些 法 则 , 递归 程序 设计 就 应 该 是 简单 明了 的 。 


1.4 实现 泛 型 构件 pre-Java 5 
面向 对 象 的 一 个 重要 目标 是 对 代码 重用 的 支持 。 支 持 这 个 目标 的 一 个 重要 的 机 制 就 是 泛 型 
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机 制 ( generic mechanism) : 如 果 除 去 对 象 的 基本 类 型 外 ， 实 现 方法 是 相同 的 , 那么 我 们 就 可 以 用 
泛 型 实现 (generic implementation ) 来 描述 这 种 基本 的 功能 。 例 如 , 可 以 编写 一 个 方法 , 将 由 一 些 
项 组 成 的 数组 排序 ; 方法 的 逻辑 关系 与 被 排序 的 对 象 的 类 型 无 关 , 此 时 可 以 使 用 泛 型 方法 。 

与 许多 新 的 语言 (例如 C++, 它 使 用 模板 来 实现 泛 型 编程 ) 不 同 , YE 1.5 版 以 前 ,Java 并 不 
直接 支持 泛 型 实现 , 泛 型 编程 的 实现 是 通过 使 用 继承 的 一 些 基本 概念 来 完成 的 。 本 节 描 述 在 
Java 中 如 何 使 用 继承 的 基本 原则 来 实现 一 些 泛 型 方法 和 类 。 

Sun 公司 在 2001 年 是 把 对 泛 型 方法 和 类 的 直接 支持 作为 未 来 的 语言 增强 剂 来 宣布 的 。 后 
来 , 终于 在 2004 年 末 发 表 了 Java 5 并 提供 了 对 泛 型 方法 和 类 的 支持 。 然 而 , 使 用 泛 型 类 需要 理 
fff pre-Java 5 对 泛 型 编程 的 语言 特性 。 因 此 ， 对 继承 如 何 用 来 实现 泛 型 程序 的 理解 是 根本 的 关 
8E, 甚至 在 Java 5 中 仍然 如 此 。 

1.4.1 使 用 object 表示 省 型 

Java 中 的 基本 思想 就 是 可 以 通过 使 用 像 Object 这 样 适当 的 超 类 来 实现 泛 型 类 。 在 图 1-5 
中 所 示 的 MemoryCell 类 就 是 这 样 一 个 例子 。 

// MemoryCell class 


// Object read( ) --» Returns the stored value 
// void write( Object x ) --» x is stored 


public class-MemoryCell 


// Public methods 
public Object read( ) ( return storedValue; ) 
public void write( Object x ) ( storedValue = x; ] 


1 
2 
3 
4 
5 
6 
7 
8 
9 


// Private internal data representation 
private Object storedValue; 





图 1-5 78 MemoryCell 类 (pre-Java 5) 


当 我 们 使 用 这 种 策略 时 , 有 两 个 细节 必须 要 考虑 。 第 一 个 细节 在 图 1-6 中 阐释 , 它 描述 一 
个 main 方法 ,该 方法 把 串 “37” 写 到 MemoryCell 对 象 中 , 然后 又 从 MemoryCell 对 象 读 
出 。 为 了 访问 这 种 对 象 的 一 个 特定 方法 , 必须 要 强制 转换 成 正确 的 类 型 。( 当然 , 在 这 个 例子 
H, 可 以 不 必 进 行 强制 转换 ,因为 在 程序 的 第 9 行 可 以 调用 tostring( ) 方 法 , 这 种 调用 对 任 
意 对 象 都 是 能 够 做 到 的 ) 。 


public class TestMemoryCel] 
. public static void main( String [ ] args ) 


{ 


MemoryCell m = new MemoryCell( ); 


m.write( "37" ); 
String val = (String) m.read( ); 
System.out.println( "Contents are: " * val ); 





图 1-6 使 用 泛 型 MemoryCell 3K( pre-Java 5) 
第 二 个 重要 的 细节 是 不 能 使 用 基本 类 型 。 只 有 引用 类 型 能 够 与 Object 相 容 。 这 个 问题 的 


标准 工作 马上 就 要 讨论 。 
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1.4.2 基本 类 型 的 包装 

当 我 们 实现 算法 的 时 候 , 常常 遇 到 语言 定型 问题 : 我 们 已 有 一 种 类 型 的 对 象 , 可 是 语言 
语法 却 需要 一 种 不 同类 型 的 对 象 。 

这 种 技巧 阐释 了 包装 类 ( wrapper class) 的 基本 主题 。 一 种 典型 的 用 法 是 存储 一 个 基本 的 类 
型 , 并 添加 一 些 这 种 基本 类 型 不 支持 或 不 能 正确 支持 的 操作 。 

在 Java 中 我 们 已 经 看 到 , 虽然 每 一 个 引用 类 型 都 和 Object 相 容 , 但 是 , 8 种 基本 类 型 却 不 
能 。 于 是 , Java 为 这 8 种 基本 类 型 中 的 每 一 种 都 提供 了 一 个 包装 类 。 例 如 ，int 类 型 的 包装 是 
Integer。 每 一 个 包装 对 象 都 是 不 可 变 的 (就 是 说 它 的 状态 绝 不 能 改变 ), 它 存 储 一 种 当 该 对 象 被 
构建 时 所 设置 的 原 值 , 并 提供 一 种 方法 以 重新 得 到 该 值 。 包 装 类 也 包含 不 少 的 静态 实用 方法 。 

例如 , 图 1-7 说 明 如 何 能 够 使 用 MemoryCell 来 存储 整数 。 


public class WrapperDemo 
public static void main( String [ ] args ) 


{ 


MemoryCell m = new MemoryCell( ); 


m.write( new Integer( 37 ) ); 

Integer wrapperVal = (Integer) m.read( ); 
int val = wrapperVal.intValue(.); 
System.out.println( "Contents are: " + val ); 





图 1-7 Integer 包装 类 的 一 种 演示 


1.4.3 使 用 接口 类 型 表示 泛 型 

只 有 在 使 用 Object 类 中 已 有 的 那些 方法 能 够 表示 所 执行 的 操作 的 时 候 , 才能 使 用 
Object 作为 泛 型 类 型 来 工作 。 

例如 , 考虑 在 由 一 些 项 组 成 的 数组 中 找 出 最 大 项 的 问题 。 基 本 的 代码 是 类 型 无 关 的 , 但 是 
它 的 确 需要 一 种 能 力 来 比较 任意 两 个 对 象 , 并 确定 哪个 是 大 的 , 哪个 是 小 的 。 因 此 , 我 们 不 能 
直接 找 出 Object 的 数组 中 的 最 大 元 素 一 一 我 们 需要 更 多 的 信息 。 最 简单 的 想法 就 是 找 出 
Comparable 的 数组 中 的 最 大 元 。 要 确定 顺序 , 可 以 使 用 compareTo 方法 , 我 们 知道 , 它 对 所 
有 的 Comparable 都 必然 是 现成 可 用 的 。 图 1-8 中 的 代码 做 的 就 是 这 项 工作 , 它 提供 一 种 
main 方法 , 该 方法 能 够 找 出 String 或 Shape 数组 中 的 最 大 元 。 

现在 , 提出 几 个 忠告 很 重要 。 首 先 , 只 有 实现 Comparable 接口 的 那些 对 象 才能 够 作为 
Comparable 数组 的 元 素 被 传递 。 仅 有 compareTo 方法 但 并 未 宣称 实现 Comparable 接口 的 
对 象 不 是 Comparable 的 , 它 不 具有 必需 的 IS-A 关系 。 因 为 我 们 也 许 会 比较 两 个 Shape 的 面 
fA, 因此 假设 Shape 实现 Comparable 接口 。 这 个 测试 程序 还 告诉 我 们 , Circle, Square 
和 Rectangle 都 是 Shape 的 子 类 。 

第 二 , 如 果 Comparable 数组 有 两 个 不 相 容 的 对 象 ( 例 如 , 一 个 string 和 一 个 Shape), 
那么 CompareTo 方法 将 抛 出 异常 ClassCastException。 这 是 我 们 期 望 的 性 质 。 

第 三 , 如 前 所 述 , 基本 类 型 不 能 作为 Comparable 传递 , 但 是 包装 类 则 可 以 , 因为 它们 实 
现 了 Comparable 接口 。 

第 四 , 接口 究竟 是 不 是 标准 的 库 接口 倒 不 是 必需 的 。 

最 后 , 这 个 方案 不 是 总 能 够 行 得 通 , 因为 有 时 宣称 一 个 类 实现 所 需 的 接口 是 不 可 能 的 。 例 
如 , 一 个 类 可 能 是 库 中 的 类 , 而 接口 却 是 用 户 定义 的 接口 。 如 果 一 个 类 是 final K, 那么 我 们 
就 不 可 能 扩展 它 以 创建 一 个 新 的 类 。1.6 节 对 这 个 问题 提出 了 另 一 个 解决 方案 ， 即 function 
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object。 这 种 函数 对 象 ( function object) 也 使 用 一 些 接口 , 它 或 许 是 我 们 在 Java 库 中 所 遇 到 的 核 
心 论题 之 一 。 
class FindMaxDemo 
{ 
/xx 
* Return max item in arr. 
* Precondition: arr.length > 0 
*/ 
public static Comparable findMax( Comparable [ ] arr ) 


{ 


int maxIndex = 0; 


for( int i = 1; i « arr.length; i++ ) 
if( arr[ i ].compareTo( arr[ maxIndex ] ) > 0 ) 
maxIndex = i; 


return arr[ maxIndex ]; 


| ** 
* Test findMax on Shape and String objects. 
*/ 
public static void main( String [ ] args ) 
{ 
Shape [ ] shl = { new Circle( 2.0 ), 
new Square( 3.0 ), 
new Rectangle( 3.0, 4.0 ) }; 


String [ ] stl = { "Joe", "Bob", "Bill", "Zeke" }; 


System.out.println( findMax( shl ) ); 
System.out.println( findMax( stl ) ); 








图 1-8 泛 型 findMax 例 程 , 使 用 Shape Al String 演示 ( pre-Java 5) 


1.4.4 数组 类 型 的 兼容 性 

语言 设计 中 的 困难 之 一 是 如 何 处 理 集合 类 型 的 继承 问题 。 设 Employee IS-A Person, Hp 
么 , 这 是 不 是 也 意味 着 数组 Employee[ ] IS-A Person[ ] 呢 ? 换 句 话说 ,如果 一 个 例 程 接受 
Person[ ] 作 为 参数 , 那么 我 们 能 不 能 把 Employee[ ] 作 为 参数 来 传递 呢 ? 

乍 一 看 , 该 问题 不 值得 一 问 , 似乎 Employee[ ] 就 应 该 是 和 Person[ ] 类 型 兼容 的 。 然 而 ， 
这 个 问题 却 要 比 想象 的 复杂 。 假 设 除 Employee 外 , 我 们 还 有 Student 15-4 Person, Hi 
Employee[ ] 是 和 Person[ ] 类 型 兼容 的 。 此 时 考虑 下 面 两 条 赋值 语句 : 


Person[] arr = new Employee[ 5 ]; // 编译 : arrays are compatible 
arr[ 0 ] = new Student( ... ); // 编译 : Student IS-A Person 


两 句 都 编译 , 而 arr [0] 实 际 上 是 引用 一 个 Employee, 可 是 Student IS- NOT- A 
Employee。 这 样 就 产生 了 类 型 混乱 。 运 行 时 系统 (runtime system) ( Java 虚拟 机 一 译 者 注 ) 不 能 
Hui} ClassCastException 异常 , 因为 不 存在 类 型 转换 。 


dl 论 1l 











避免 这 种 问题 的 最 容易 的 方法 是 指定 这 些 数 组 不 是 类 型 兼容 的 。 可 是 , TE Java 中 数组 却 是 类 型 
兼容 的 。 这 叫 作 协 变数 组 类 型 ( covariant araay type) 。 每 个 数组 都 明了 它 所 人 允许 存储 的 对 象 的 类 型 。 
如 果 将 一 个 不 兼容 的 类 型 插入 到 数组 中 , 那么 虚拟 机 将 抛 出 一 个 ArrayStoreException 异常 。 

在 较 早 版 本 的 Java 中 是 需要 数组 的 协 变性 的 , 否则 在 图 1-8 的 第 29 行 和 第 30 行 的 调用 将 
编译 不 了 
1.5 利用 Java 5 泛 型 特性 实现 泛 型 构件 

Java 5 支持 泛 型 类 , 这 些 类 很 容易 使 用 。 然 而 , 编写 泛 型 类 却 需 要 多 做 一 些 工 作 。 本 节 将 
叙述 编写 泛 型 类 和 泛 型 方法 的 基础 。 我 们 不 打算 涉及 语言 的 所 有 结构 , 那样 将 是 相当 复杂 的 ， 


而 且 有 时 是 很 难处 理 的 。 我 们 将 介绍 用 于 全 书 的 语法 和 习 语 。 
1.5.1 简单 的 泛 型 类 和 接口 


public class GenericMemoryCe11<AnyType> 





图 1-9 是 前 面 图 1-5 描述 的 MemoryCell { 
的 泛 型 版 代码 。 这 里 , 我 们 把 名 字 改 成 了 public AnyType read( ) 
GenericMemoryCell, 因为 两 个 类 都 不 在 包 { return storedValue; } i 
中 ， 所 以 名 字 也 就 不 能 相同 。 public void write( AnyType x ) 
当 指定 一 个 泛 型 类 时 , 类 的 声明 则 包含 一 codi E. 
个 或 多 个 类 型 参数 , 这些 参 数 被 放 在 类 名 后 面 private AnyType storedValue; 
的 一 对 尖 括 号 内 。 第 1 行 指出 ，Generic- } 
MemoryCell 有 一 个 类 型 参数 。 在 这 个 例子 
中 , 对 类 型 参数 没有 明显 的 限制 ,所 以 用 户 可 图 1-9 MemoryCell 类 的 泛 型 实现 


以 创建 像 GenericMemoryCell < String > fl GenericMemoryCell < Integer > 这 样 的 类 
型 , 但 是 不 能 创建 GenericMemoryCell < int > 这 样 的 类 型 。 在 GenericMemoryCell 类 声 
明 内 部 , 我 们 可 以 声明 泛 型 类 型 的 域 和 使 用 泛 型 类 型 作为 参数 或 返回 类 型 的 方法 。 例 如 在 
图 1-9 的 第 511, JE GenericMemoryCell < String> 的 write 方法 需要 一 个 String 类 型 
的 参数 。 如 果 传 递 其 他 参数 那 将 产生 一 个 编译 错误 。 - 

也 可 以 声明 接口 是 泛 型 的 。 例 如 , 在 Java 5 以 前 , Comparable 接口 不 是 泛 型 的 ， 而 它 的 
e atm. eee 个 object 作为 参数 。 于 是 , 传递 到 compareTo 方法 的 任何 引用 变量 
即使 不 是 一 个 合理 的 类 型 也 都 会 编译 , 而 只 是 在 运行 时 报告 ClassCastException 错误 。 在 
Java 5 rf, dimissus 接口 是 泛 型 的 ,， 如 
图 1-10 所 示 。 例 如 , 现在 string 类 实现 
Comparable <String > 并 有 一 个 compare- public interface Comparable<AnyType> 
To 方法 , 这 个 方法 以 一 个 String 作为 其 参 i public int compareTo( AnyType other ); 
数 。 通 过 使 类 变 成 泛 型 类 , 以 前 只 有 在 运行 } 
时 才能 报告 的 许多 错误 如 今 变 成 了 编译 时 的 
错误 。 图 1-10 Java 5 版 本 的 Comparable 

图 1-7 中 的 代码 写 得 很 麻烦 , 因为 使 用 包装 类 需要 在 调用 write 之 前 创建 Integer WR, 
然后 才能 使 用 intValue 方法 从 Integer 中 提取 int 值 。 在 Java 5 以 前 , 这 是 需要 的 , 因为 
如 果 一 个 int 型 的 量 被 放 到 需要 Integer 对 象 的 地 方 , 那么 编译 将 会 产生 一 个 错误 信息 , 而 
如 果 将 一 个 Integer 对 象 的 结果 赋值 给 一 个 int 型 的 量 , 则 编译 也 将 产生 一 个 错误 信息 。 
图 1-7 中 的 代码 准确 地 反映 出 基本 类 型 和 引用 类 型 之 间 的 区 别 , 但 还 没有 清楚 地 表示 出 程序 员 
把 那些 int f£ A f&4 (collection) 的 意图 。 

Java 5 矫正 了 这 种 情形 。 如 果 一 个 int 型 量 被 传递 到 需要 一 个 Integer 对 象 的 地 方 , AB 
么 ,编译 器 将 在 幕后 插入 一 个 对 Integer 构造 方法 的 调用 。 这 就 叫 作 自动 装 箱 。 而 如 果 一 


package java.lang; 
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Integer 对 象 被 放 到 需要 int 型 量 的 地 方 , 则 编译 器 将 在 幕后 插入 一 个 对 intValue 方法 的 调 
FA, 这 就 叫 作 自动 拆 箱 。 对 于 其 他 7 对 基本 类 型 /包装 类 型 ,同样 会 发 生 类 似 的 情形 。 图 1-11a JH 
Java 5 描述 了 自动 装 箱 和 自动 拆 箱 的 使 用 。 注 意 , 在 GenericMemoryCell 中 引用 的 那些 实体 
仍然 是 Integer WH; 在 GenericMemoryCell 的 实例 化 中 ,int 不 能 够 代替 Integer. 


class BoxingDemo 


public static void main( String [ ] args ) 
{ 


GenericMemoryCell«Integer» m = new GenericMemoryCell«Integer»( ); 


m.write( 37 ); 
int val » m.read( ); 
System.out.println( "Contents are: " + val ); 





图 1-11a 自动 装 箱 和 拆 箱 ( Java 5) 


1.5.3 菱形 运算 符 

在 图 1-1la 中 ,第 5 行 有 些 烦人 , :因为 既然 m 是 GenericMemoryCell < Integer > 类 型 
AY, 显然 创建 的 对 象 也 必须 是 GenericMemoryCell < Integer > 类 型 的 ,任何 其 他 类 型 的 参数 
都 会 产生 编译 错误 。Java 7 增加 了 一 种 新 的 语言 特性 ， 称 为 菱形 运算 符 ， 使 得 第 5 行 可 以 改写 为 


GenericMemoryCell«Integer» m = new GenericMemoryCe11<>( ); 


菱形 运算 符 在 不 增加 开发 者 负担 的 情况 下 简化 了 代码 ， 我们 通 篇 都 会 使 用 它 。 图 1-11b 给 
出 了 带 菱形 运算 符 的 Java 7 版 代码 。 


class BoxingDemo 
{ 
public static void main( String [ ] args ) 
{ 
GenericMemoryCell«Integer» m = new GenericMemoryCell<>( ); 


m.write( 5 ); 
int val = m.read( ); 
System.out.println( "Contents are: " + val ); 





图 1-11b 自动 装 箱 和 拆 箱 ( Java 7， 使 用 菱形 运算 符 ) 


1.5.4 带 有 限制 的 通配符 

图 1-12 显示 一 个 static 方法 , 该 方法 计算 一 个 Shape 数组 的 总 面积 (假设 Shape 是 含 
有 area 方法 的 类 ; 而 Circle fll Square 则 是 继承 Shape 的 类 )。 假 设 我 们 想 要 重 写 这 个 计 
算 总 面积 的 方法 , 使 得 该 方法 能 够 使 用 Collection < Shape > 这 样 的 参数 。Collection 将 
在 第 3 章 描述 。 当 前 , 唯一 重要 的 是 它 能 够 存储 一 些 项 , 而 且 这 些 项 可 以 用 一 个 增强 的 for 循 
环 来 处 理 。 由 于 是 增强 的 for 循环 , 因此 代码 是 相同 的 , 最 后 的 结果 如 图 1-13 所 示 。 如 果 传 递 
一 个 Collection < Shape >, 那么 , 程序 会 正常 运行 。 可 是 , 要 是 传递 一 个 Collection 
«Square > 会 发 生 什 么 情况 呢 ? 答 案 依赖 于 是 否 Collection < Square > IS-A Collection 
< Shape > 。 回 顾 1.4.4 节 可 知 , 用 技术 术语 来 说 即 是 否 我 们 拥有 协 变性 。 
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public static double totalArea( Shape [ ] arr ) 


double total = 0; 


for( Shape s : arr ) 
if( s != null ) 
total *- s.area( ); 


return total; 
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图 1-12 Shape[ ] 的 totalArea 方 法 


public static double totalArea( Collection<Shape> arr ) 
double total = 0; 


for( Shape s : arr ) 


if( s != null ) 
total += s.area( ); 


return total; 


} 





图 1-13 totalArea 方法 , 如 果 传 递 一 个 Collection < Square > , 则 该 方法 不 能 运行 


我 们 在 1.4.4 WHS, Java 中 的 数组 是 协 变 的 。 于 是 , Square[ ] IS-A Shape[ ] 。 一 方面 ， 
这 种 一 致 性 意味 着 , 如 果 数 组 是 协 变 的 , 那么 集合 也 将 是 协 变 的 。 另 一 方面 , 我 们 在 1.4.4 节 
看 到 ， 数 组 的 协 变性 导致 代码 得 以 编译 , 但 此 后 会 产生 一 个 运行 时 异常 (一 个 
ArrayStoreException)。 因 为 使 用 泛 型 的 全 部 原因 就 在 于 产生 编译 器 错误 而 不 是 类 型 不 匹 
配 的 运行 时 异常 , 所 以 , 泛 型 集合 不 是 协 变 的 。 因 此 , 我 们 不 能 把 Collection < Square > 作 
为 参数 传递 到 图 1-13 中 的 方法 里 去 。 

现在 的 问题 是 , 泛 型 (以 及 泛 型 集合 ) 不 是 协 变 的 (但 有 意义 ) ,而 数组 是 协 变 的 。 若 无 附加 
的 语法 , 则 用 户 就 会 避免 使 用 集合 ( collection) ， 因 为 失去 协 变性 使 得 代码 缺少 灵活 性 。 

Java 5 用 通配符 (wildcard) 来 弥补 这 个 不 足 。 通 配 符 用 来 表示 参数 类 型 的 子 类 (或 超 类 ) 。 
图 1-14 描述 带 有 限制 的 通配符 的 使 用 , 图 中 编写 一 个 将 Collection <T > 作为 参数 的 方法 
totalArea, 其 中 T 15-4 Shape。 因 此 , Collection «Shape > 和 Collection < Square > 都 是 
可 以 接受 的 参数 。 通 配 符 还 可 以 不 带 限制 使 用 (此 时 假设 为 extends Object), 或 不 用 extends 而 
用 super( 来 表示 超 类 而 不 是 子 类 ) ; 此 外 还 存在 一 些 其 他 的 语法 , 我 们 就 不 在 这 里 讨论 了 。 


public static double totalArea( Collection<? extends Shape> arr ) 


{ 
double total = 0; 


for( Shape s : arr ) 


if( s != null ) 
total *- s.area( ); 


return total; 


) 





1-14. 用 通配符 修正 后 的 totalarea 方法 , 如 果 传 递 一 个 
Collection < Square >, 则 方法 能 够 正常 运行 


* 
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1.5.5 泛 型 static 方法 

从 某 种 意义 上 说 , 图 1-14 中 的 totalArea 方法 是 泛 型 方法 ,因为 它 能 够 接受 不 同类 型 的 
参数 。 但 是 , 这 里 没有 特定 类 型 的 参数 表 , 正如 在 GenericMemoryCell 类 的 声明 中 所 做 的 那 
样 。 有 时 候 特 定 类 型 很 重要 , 这 或 许 因为 下 列 的 原因 : 

l. 该 特定 类 型 用 做 返回 类 型 ; 

2. 该 类 型 用 在 多 于 一 个 的 参数 类 型 中 ; 

3. 该 类 型 用 于 声明 一 个 局 部 变量 。 

如 果 是 这 样 , 那么 , 必须 要 声明 一 种 带 有 若干 类 型 参数 的 显 式 泛 型 方法 。 

例如 , 图 1-15 显示 一 种 泛 型 static 方法 , 该 方法 对 值 x 在 数组 arr 中 进行 一 系列 查找 
通过 使 用 一 种 泛 型 方法 , 代替 使 用 Object 作为 参数 的 非 泛 型 方法 ， 当 在 Shape 对 象 的 数组 中 
查找 Apple 对 象 时 我 们 能 够 得 到 编译 时 错误 。 


public static <AnyType> boolean contains( AnyType [ ] arr, AnyType x ) 


for( AnyType val : arr ) 
if( x.equals( val ) ) 
return true; 


return false; 
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泛 型 方法 特别 像 是 泛 型 类 , 因为 类 型 参数 表 使 用 相同 的 语法 。 在 泛 型 方法 中 的 类 型 参数 位 
于 返回 类 型 之 前 。 
1.5.6 类 型 限界 

假设 我 们 想 要 编写 一 个 finaMax 例 程 。 考 虑 图 1-16 中 的 代码 。 由 于 编译 器 不 能 证 明 在 
第 6 行 上 对 compareTo 的 调用 是 合法 的 , 因此 , 程序 不 能 正常 运行 ; 只 有 在 anyType 是 
Comparable 的 情况 下 才能 保证 compareTo 存在 。 我 们 可 以 使 用 类 型 限界 (type bound ) 解决 
这 个 问题 。 类 型 限界 在 尖 括 号 内 指定 , 它 指定 参数 类 型 必须 具有 的 性 质 。 一 种 自然 的 想法 是 把 
性 质 改 写成 


public static <AnyType extends Comparable> ... 


public static <AnyType> AnyType findMax( AnyType [ ] arr ) 
{ 


int maxIndex = 0; 


for( int i = 1; i < arr.length; i++ ) 


if( arr[ i ].compareTo( arr[ maxIndex ] ) > 0 ) 
maxIndex = i; 


return arr[ maxIndex ]; 


) 





图 1-16 泛 型 static 方法 查找 一 个 数组 中 的 最 大 元 素 , 该 方法 不 能 正常 运行 


我 们 知道 , 因为 Comparable 接口 如 今 是 泛 型 的 , 所 以 这 种 做 法 很 自然 。 虽 然 这 个 程序 能 
够 被 编译 , 但 是 更 好 的 做 法 却 是 


public static <AnyType extends Comparable<AnyType>> ... 


然而 , 这 个 做 法 还 是 不 能 令 人 满意 。 为 了 看 清 这 个 问题 , 假设 Shape 实现 Comparable 


7l 论 i TS 





«Shape > , it Square 继承 Shape。 此 时 , 我 们 所 知道 的 只 是 Square 实现 Comparable 
<Shape >, F Œ, Square IS-A Comparable < Shape >， 但 它 愉 -NOT-4 Comparable 
«Square»! 

应 该 说 , AnyType IS-A Comparable <T>, 其 中 ,了 是 AnyType 的 父 类 。 由 于 我 们 不 需 
要 知道 准确 的 类 型 T, 因此 可 以 使 用 通配符 。 最 后 的 结果 变 成 


public static <AnyType extends Comparable<? super AnyType>> 


图 1-17 显示 findMax 的 实现 。 编 译 带 将 接受 类 型 T 的 数组 , 只 是 使 得 T 3:30 Comparable 
<S> 接 口 , 其 中 T15-4 S, CHAR, 限界 声明 看 起 来 有 些 混乱 。 幸 运 的 是 , 我 们 不 会 再 看 到 任何 
比 这 种 用 语 更 复杂 的 用 语 了 。 


public static <AnyType extends Comparable<? super AnyType>> 
AnyType findMax( AnyType [ ] arr ) 
{ 


int maxIndex = 0; 


for( int i = 1; i < arr.length; i++ ) 
if( arr[ i ].compareTo( arr[ maxIndex ] ) > 0 ) 
maxIndex = i; 


return arr[ maxIndex ]; 


} 
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图 1-17 在 一 个 数组 中 找 出 最 大 元 的 泛 型 static 方法 。 以 例 说 明 类 型 参数 的 限界 


1.5.7 On 

泛 型 在 很 大 程度 上 是 Java 语言 中 的 成 分 而 不 是 虚拟 机 中 的 结构 。 泛 型 类 可 以 由 编译 器 通过 
所 谓 的 类 型 擦 除 (type erasure) 过 程 而 转变 成 非 泛 型 类 。 这 样 ， 编 译 器 就 生成 一 种 与 泛 型 类 同名 
的 原始 类 (raw class) ,但 是 类 型 参数 都 被 删 去 了 。 类 型 变量 由 它们 的 类 型 限界 来 代替 ， 当 一 个 
具有 擦 除 返回 类 型 的 泛 型 方法 被 调用 的 时 候 , 一 些 特性 被 自动 地 插入 。 如 果 使 用 一 个 泛 型 类 而 
不 带 类 型 参数 , 那么 使 用 的 是 原始 类 。 

类 型 擦 除 的 一 个 重要 推论 是 , 所 生成 的 代码 与 程序 员 在 泛 型 之 前 所 写 的 代码 并 没有 太 多 的 
差异 , 而 且 事 实 上 运行 的 也 并 不 快 。 其 显著 的 优点 在 于 , 程序 员 不 必 把 一 些 类 型 转换 放 到 代码 
中 , 编译 器 将 进行 重要 的 类 型 检验 。 

1.5.8 对 于 泛 型 的 限制 
对 于 泛 型 类 型 有 许多 的 限制 。 由 于 类 型 擦 除 的 原因 ,这 里 列 出 的 每 一 个 限制 都 是 必须 要 遵守 的 。 


基本 类 型 
基本 类 型 不 能 用 做 类 型 参数 。 因 此 ,GenericMemoryCell «int > 是 非法 的 。 我 们 必须 
使 用 包装 类 ， 


instanceof 检测 

instanceof 检测 和 类 型 转换 工作 只 对 原始 类 型 进行 。 在 下 列 代码 中 : 
GenericMemoryCell«Integer» celll = new GenericMemoryCell<>( ); 
celll.write( 4 ); 

Object cell = celll; 

GenericMemoryCell«String» cell2 = (GenericMemoryCell«String») cell; 
String s = cell2.read( ); 


这 里 的 类 型 转换 在 运行 时 是 成 功 的 , 因为 所 有 的 类 型 都 是 GenericMemoryCell, 但 在 最 后 一 
ft. 由 于 对 read 的 调用 企图 返回 一 个 String 对 象 从 而 产生 一 个 运行 时 错误 。 结 果 , 类 型 转 
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换 将 产生 一 个 警告 , 而 对 应 的 instanceof 检测 是 非法 的 。 

static 的 语 境 

在 一 个 泛 型 类 中 , static 方法 和 static 域 均 不 可 引用 类 的 类 型 变量 , DIO E EU BER: 
后 类 型 变量 就 不 存在 了 。 另 外 , 由 于 实际 上 只 存在 一 个 原始 的 类 , 因此 static 域 在 该 类 的 诸 
泛 型 实例 之 间 是 共享 的 。 


泛 型 类 型 的 实例 化 
不 能 创建 一 个 泛 型 类 型 的 实例 。 如 果 了 是 一 个 类 型 变量 , 则 语句 
T obj = new TÈ Xs // 右边 是 非法 的 


是 非法 的 。T 由 它 的 限界 代替 , 这 可 能 是 Object (或 甚至 是 抽象 类 ), 因此 对 new 的 调用 没有 意义 。 
泛 型 数组 对 象 
也 不 能 创建 一 个 泛 型 的 数组 。 如 果 了 是 一 个 类 型 变量 , 则 语句 
T[]arr=newT[10]; // 右边 是 非法 的 


是 非法 的 。 了 将 由 它 的 限界 代替 , 这 很 可 能 是 Object T, 于 是 (由 类 型 擦 除 产 生 的 ) 对 T[ ] 的 
类 型 转换 将 无 法 进行 , 因为 object[ ] IS-NOT-A T[ ]。 由 于 我 们 不 能 创建 泛 型 对 象 的 数组 , 因 
此 一 般 说 来 我 们 必须 创建 一 个 擦 除 类 型 的 数组 , 然后 使 用 类 型 转换 。 这 种 类 型 转换 将 产生 一 个 
关于 未 检验 的 类 型 转换 的 编译 警告 。 

参数 化 类 型 的 数组 

参数 化 类 型 的 数组 的 实例 化 是 非法 的 。 考 虑 下 列 代码 : 

1  GenericMemoryCell«String» [ ] arrl = new GenericMemoryCell<>[ 10 ]; 
GenericMemoryCell«Double» cell = new GenericMemoryCell<>( ); cell.write( 4.5 ); 
Object [ ] arr2 = arrl; 
arr2[ 0 ] = cell; 
5 String s = arrl[ 0 ].read( ); 


正常 情况 下 , 我 们 认为 第 4 行 的 赋值 会 生成 一 个 ArrayStoreException, 因为 赋值 的 类 型 有 错 
误 。 可 是 , 在 类 型 擦 除 之 后 , 数组 的 类 型 为 GenericMemorycel1[ ] 而 加 到 数组 中 的 对 象 也 是 
GenericMemoryCell, 因此 不 存在 ArrayStoreException 异常 。 于 是 , 该 段 代码 没有 类 型 转 
换 , 它 最 终 将 在 第 5 行 产生 一 个 ClassCastException 异常 , 这 正 是 泛 型 应 该 避免 的 情况 。 


1.6 函数 对 象 


在 1.5 节 我 们 指出 如 何 编写 泛 型 算法 。 例 如 , 图 1-16 中 的 泛 型 方法 可 以 用 于 找 出 一 个 数组 
中 的 最 大 项 。 

然而 , 这 种 泛 型 方法 有 一 个 重要 的 局 限 : 它 只 对 实现 Comparable 接口 的 对 象 有 效 , 因为 它 
使 用 compareTo 作为 所 有 比较 决策 的 基础 。 在 许多 情形 下 , 这 种 处 理 方式 是 不 可 行 的 。 例 如 , Js 
管 假 设 Rectangle 类 实现 Comparable 接口 有 些 过 分 , 但 即使 实现 了 该 接口 , 它 所 具有 的 
compareTo 方法 铠 怕 还 不 是 我 们 想 要 的 方法 。 例 如 , 给 定 一 个 2 x 10 的 矩形 和 一 个 5 x5 的 矩形 ， 
哪个 是 更 大 的 矩形 呢 ? 答案 丽 怕 依赖 于 我 们 是 使 用 面积 还 是 使 用 长 度 来 决定 。 或 者 ， 如果 我 们 试 
图 通过 一 个 开口 构造 该 矩形 , 那么 或 许 较 大 的 和 矩形 就 是 具有 较 大 最 小 周 长 的 和 矩形。 作为 第 二 个 例 
T. 在 一 个 字符 串 的 数组 中 如 果 想 要 找 出 最 大 的 串 ( 即 字 典 序 排 在 最 后 的 串 ), 默认 的 compareTo 
不 忽略 字符 的 大 小 写 , 则 “ZEBRA” 按 字典 序 排 在 “alligator” 之 前 , 这 可 能 不 是 我 们 想 要 的 。 

上 述 这 些 情形 的 解决 方案 是 重 写 finaMax, 使 它 接受 两 个 参数 : 一 个 是 对 象 的 数组 ， 另 一 
个 是 比较 函数 , 该 函数 解释 如 何 决 定 两 个 对 象 中 哪个 大 哪个 小 。 实 际 上 , 这 些 对 象 不 再 知道 如 
何 比较 它们 自己 ; 这 些 信息 从 数组 的 对 象 中 完全 去 除了 。 

一 种 将 函数 作为 参数 传递 的 独创 方法 是 注意 到 对 象 既 包 含 数据 也 包含 方法 , 于 是 我 们 可 以 
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定义 一 个 没有 数据 而 只 有 一 个 方法 的 类 , 并 传递 该 类 的 一 个 实例 。 事 实 上 , 一 个 函数 通过 将 其 
放 在 一 个 对 象 内 部 而 被 传递 。 这 样 的 对 象 通常 叫 作 函数 对 象 (funtion object) 。 

1-18 显示 函数 对 象 想法 的 最 简单 的 实现 。finaMax 的 第 二 个 参数 是 Comparator 类 型 
的 对 象 。 接 口 Comparator 在 java. util 中 指定 并 包含 一 个 compare 方法 。 这 个 接口 在 
图 1-19 中 指出 。 


// Generic findMax, with a function object. 

// Precondition: a.size( ) > 0. 

public static <AnyType> 

AnyType findMax( AnyType [ ] arr, Comparator<? super AnyType> cmp ) 
{ pas à 


int maxIndex = 0; 


for( int i = 1; i < arr.length ( ); i++ ) 
if( cmp.compare( arr[ i ], arr[ maxIndex ] ) > 0 ) 
maxIndex = i; 


= 
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return arr[ maxIndex ]; 


} 


class CaseInsensitiveCompare implements Comparator<String> 
{ 
public int compare( String lhs, String rhs ) 
{ return lhs.compareToIgnoreCase( rhs ); } 


k s e ha MÀ RA G más 
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} 


class TestProgram 
{ 
public static void main( String [ ] args ) 
{ 
String [ ] arr = { "ZEBRA", "alligator"; "crocodile" }; 
System.out.println( findMax( arr, new CaseInsensitiveCompare( ) ) ) 





图 1-18 利用 一 个 函数 对 象 作为 第 2 个 参数 传递 给 finaMax; 输出 ZEBRA 


package java.util; 


public interface Comparator<AnyType> 


int compare( AnyType lhs, AnyType rhs ); 





图 1-19 Comparator 接口 


实现 接口 Comparator < AnyType > 类 型 的 任何 类 都 必须 要 有 一 个 叫 作 compare 的 方 
法 , 该 方法 有 两 个 泛 型 类 型 (AnyType ) 的 参数 并 返回 一 个 int 型 的 量 , 遵守 和 compareTo 相 
同 的 一 般 约 定 。 因 此 , 在 图 1-18 中 的 第 9 行 对 compare 的 调用 可 以 用 来 比较 数组 的 项 。 第 4 
行 的 带 有 限制 的 通配符 用 来 表示 如 果 查 找 数组 中 的 最 大 的 项 , 那么 该 comparator 必须 知道 如 
何 比 较 这 些 项 , 或 者 这 些 项 的 超 类 型 的 那些 对 象 。 我 们 可 以 在 第 26 行 看 到 , 为 了 使 用 这 种 版 本 
的 £indMax, findMax 通过 传递 一 个 String 数组 以 及 一 个 实现 comparator <String > 的 
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对 象 而 被 调用 。 这 个 对 象 属于 CaseInsensitiveCompare 类 型 , 它 是 我 们 编写 的 一 个 类 ， 

在 第 4 章 我 们 将 给 出 关于 一 个 类 的 例子 , 这 个 类 需要 将 它 存储 的 项 排序 。 我 们 将 利用 
Comparable 编写 大 部 分 的 代码 , 并 指出 其 中 需要 使 用 函数 对 象 的 改动 部 分 。 在 本 书 的 其 他 地 
方 , 我 们 将 避免 函数 对 象 的 细节 以 使 得 代码 尽 可 能 地 简单 , 我 们 知道 以 后 将 函数 对 象 添加 进去 
并 不 困难 。 


小 结 


本 章 为 该 书 的 其 余部 分 创建 一 个 平台 。 面 对 大 量 的 输入 , 一 种 算法 所 花费 的 时 间 将 是 评判 
决策 好 坏 的 重要 标准 ( 当然 , 正确 性 是 最 重要 的 ) 。 速 度 是 相对 的 。 对 于 一 个 问题 在 一 台 机 器 上 
速度 是 快 的 , 有 可 能 对 另外 一 个 问题 或 在 一 台 不 同 的 机 器 上 就 变 成 速度 是 慢 的 。 我 们 将 从 下 一 
章 开始 处 理 这 些 问 题 , 并 且 要 用 到 本 章 讨论 过 的 数学 来 建立 一 个 正式 的 模型 。 


练习 


1.1 ”编写 一 个 程序 解决 选择 问题 。 令 = N/2. 画 出 表格 显示 程序 对 于 N 种 不 同 的 值 的 运行 时 间 。 
1.2 ”编写 一 个 程序 求解 字谜 游戏 问题 。 

1.3 ”只 使 用 处 理 IO 的 printDigit 方法 , 编写 一 种 方法 以 输出 任意 double 型 量 (可 以 是 负 的 ) 
L4 C 允许 拥有 形 如 


#include filename 


的 语句 , CHi filename 读 人 并 将 其 插入 到 include 语句 处 。include 语句 可 以 向 套 ; 换 句 话说 ， 
文件 filename 本 身 还 可 以 包含 include 语句 , 但 是 显然 一 个 文件 在 任何 链接 中 都 不 能 包含 它 自 
己 。 编 写 一 个 程序 , 使 它 读 入 被 一 些 include 语句 修饰 的 文件 并 且 输 出 这 个 文件 。 

1.5 ”编写 一 种 递归 方法 , 它 返 回 数 V 的 二 进 制 表示 中 1 的 个 数 。 利 用 这 样 的 事实 : 如 果 是 奇数 , 那 
么 其 1 的 个 数 等 于 N/2 的 二 进 制 表示 中 1 的 个 数 加 T. 

1.6 ”编写 带 有 下 列 声明 的 例 程 : 
public void permute( String str ); 
private void permute( char [ ] str, int low, int high ); 


第 一 个 例 程 是 个 驱动 程序 , 它 调用 第 二 个 例 程 并 显示 String str 中 的 字符 的 所 有 排列 。 如 果 
str 是 "abc" , 那么 输出 的 串 则 是 abc, acb, bac, bea, cab 和 cba。 第 二 个 例 程 使 用 递归 。 
1.7 ”证 明 下 列 公 式 : 
' a. log X « X XI PG HY X »0 成 立 
b. log( A)" = BlogA 
1.8 HA FIKA: 


i=[N/2] 
“1.10 2'( mod 5) 是 多 少 ? 
1.11 令 拟 是 在 1.2 节 中 定义 的 斐 波 那 契 数 。 证 明 下 列 各 式 ; 


N-2 
a YF, = Fy -2 
i=l 


ps 


dl 
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b. Fy <b", 其 中 $=(1+V5)/2 


Te 给 出 Fy 准确 的 封闭 形式 的 表达 式 。 


证 明 下 列 公式 : 
a. Y (2-1) =N 
i=l 


hM ON 

设计 一 个 泛 型 类 Collection, 它 存储 Object 对 象 的 集合 (在 数组 中 ), 以 及 该 集合 的 当前 大 小 。 
提供 public 方法 isEmpty, makeEmpty, insert, remove 和 isPresent。 方 法 isPresent (x) 
当 且 仅 当 在 该 集合 中 存在 (由 equals 定义 ) 等 于 x 的 一 个 Object 时 返回 true, 

设计 一 个 泛 型 类 orderedCollection, 它 存储 Compaxable 的 对 象 的 集合 (在 数组 中 ), 以 及 
该 集合 的 当前 大 小 。 提 供 public 方法 isEmpty、 makeEmpty, insert, remove, findMin 和 
findMax, findMin 和 findMax 分 别 返 回 该 集合 中 最 小 的 和 最 大 的 Comparable 对 象 的 引用 
(如 果 该 集合 为 空 , 则 返回 null), 

定义 一 个 Rectangle #, 该 类 提供 getLength 和 getWidth 方法 。 利 用 图 1-18 中 的 findMax 
例 程 编写 一 种 main 方法 , 该 方法 创建 一 个 Rectangle 数组 并 首先 找 出 依 面 积 最 大 的 
Rectangle 对 象 , 然后 找 出 依 周 长 最 大 的 Rectangle HR. 
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算法 分 析 





算法 (algorithm ) 是 为 求解 一 个 问题 需要 遵循 的 、 被 清楚 指定 的 简单 指令 的 集合 。 对 于 一 个 
问题 , 一旦 某 种 算法 给 定 并 且 ( 以 某 种 方式 ) 被 确定 是 正确 的 , 那么 重要 的 一 步 就 是 确定 该 算法 
将 需要 多 少 诸如 时 间或 空间 等 资源 量 的 问题 。 如 果 一 个 问题 的 求解 算法 竟然 需要 长 达 一 年 时 
间 , 那么 这 种 算法 就 很 难 能 有 什么 用 处 。 同 样 ,一 个 需要 若干 个 CB(gigabyte ) 的 内 存 的 算法 在 
当前 的 大 多 数 机 器 上 也 是 无 法 使 用 的 。 

在 这 一 章 , 我 们 将 讨论 : 

e 如 何 估计 一 个 程序 所 需要 的 时 间 。 

e 如 何 将 一 个 程序 的 运行 时 间 从 天 或 年 降低 到 秒 甚至 更 少 。 

e 粗心 使 用 递归 的 后 果 。 

e 将 一 个 数 自 乘 得 到 其 寡 , 以 及 计算 两 个 数 的 最 大 公 因 数 的 非常 有 效 的 算法 。 


2.1 数学 基础 


一 般 说 来 , 估计 算法 资源 消耗 所 需 的 分 析 是 一 个 理论 问题 , 因此 需要 一 套 正式 的 系统 架构 。 
我 们 先 从 某 些 数学 定义 开始 。 

本 书 将 使 用 下 列 四 个 定义 : 

定义 2. 1 如 果 存 在 正常 数 c Al n 使 得 当 N>=m IE TON) SAN), Wie TON) =OWCN))。 

定义 2.2 如果 存在 正常 数 c Al ny 使 得 当 N=m BE TN) 2eg(N) , WEH TON) =Q(g(N))。 

定义 2.3 T(N) =O(h(N)) 4AM T(N) 2O(CRCN) ) fl TCN) 2 OCACN) )。 

定义 2.4 如 果 对 每 一 正常 数 都 存在 常数 m 使 得 当 NM>m BE TCN) «ep( N), W TCN) = 
o(p(N) )。 有 时 也 可 以 说 , WF TN) =O(p(N)) H. T(N) £OCpCN) ) , W TCN) =0(p(N)). 

这 些 定义 的 目的 是 要 在 函数 间 建 立 一 种 相对 的 级 别 。 给 定 两 个 函数 , 通常 存在 一 些 点 , 在 
这 些 点 上 一 个 函数 的 值 小 于 男 一 个 函数 的 值 , 因此 , 一 般 地 宣称 ,比如 说 /(N) «g CN) ,是 没有 
什么 意义 的 。 于 是 , 我 们 比较 它们 的 相对 增长 率 (relative rate of growth) 。 当 将 相对 增长 率 应 用 
到 算法 分 析 时 , 我们 将 会 明白 为 什么 它 是 重要 的 度量 。 

虽然 对 于 较 小 的 NN 值 1000N 要 比 N K, 但 N 以 更 快 的 速度 增长 , 因此 N 最 终 将 是 更 大 
的 函数 。 在 这 种 情况 下 , N=1 000 是 转折 点 。 第 一 个 定义 是 说 , 最 后 总 会 存在 某 个 点 m MEV 
后 c*f(N) 总 是 至 少 与 7T(N) 一 样 大 、 ipio iot WW SCN) 至少 与 7(N) 一 样 大 。 在 我 
们 的 例子 中 , TIN) 21000N, f(N) 2N', n, 21000 而 c=1。 我 们 也 可 以 让 no。=10 而 c=100。 
因此 , 可 以 说 1000N = OU) Ora. 这 种 记 法 称 为 大 0 标记 法 。 人 们 常常 不 说 “…… 级 


如 果 用 传统 的 不 等 式 来 计算 增长 率 ， 那么 第 一 个 定义 是 说 T(N) 的 增长 率 小 于 或 等 于 f(N) 
的 增长 率 。 第 二 个 定义 T(N) 2 Q(g(N))( 念 成 “omega" ) 是 说 7T(N) 的 增长 率 大 于 或 等 于 
8(NN) 的 增长 率 。 第 三 个 定义 7T(N) =O(A(N)) (ZR “theta” ) 是 说 7T(N) 的 增长 率 等 于 h(N) 
的 增长 率 。 最 后 一 个 定义 T(N) =o(p(N))( 念 成 “小 o”) 说 的 则 是 7T(N) 的 增长 率 小 于 p(N) 
的 增长 率 。 它 不 同 于 大 0, 因为 大 0 包含 增长 率 相同 的 可 能 性 。 

要 证 明 某 个 函数 7T(N) = OCFCN) ) , 通常 不 是 形式 地 使 用 这 些 定义 , 而 是 使 用 一 些 已 知 的 
结果 。 一 般 来 说 , 这 就 意味 着 证 明 ( 或 确定 假设 不 成 立 ) 是 非常 简单 的 计算 而 不 应 涉及 微 积分 ， 
除非 遇 到 特殊 的 情况 (不 可 能 在 算法 分 析 中 发 生 ) 。 
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当 T(N) =O(f(N)) AY, 我 们 是 在 保证 函数 7T(N) 是 在 以 不 快 于 f(N) 的 速度 增长 ; 因此 
A(N) 是 7T(N) 的 一 个 上 界 (upper bound)。 这 意味 着 f(N) = Q(T(N)), 于 是 我 们 说 7T(N) 是 
f(N) 的 一 个 下 界 (lower bound), 

作为 一 个 例子 , N 比 N 增长 快 , RERIT N =0 NRN =A) AN) =N A 
g(N) =2N 以 相同 的 速率 增长 , 从 而 AN) =0(g(N)) 和 f(N) 2 Q(g(NN)) 都 是 正确 的 。 当 两 
个 函数 以 相同 的 速率 增长 时 ,是 否 需要 使 用 记号 OO 表示 可 能 依赖 于 具体 的 上 下 文 。 直 观 地 
Bi, 如 果 g(N) =2N ,那么 g(N) 2O(N') , g(N) =0(N) 和 g(N) =0O(N) 从 技术 上 看 都 是 成 
立 的 , 但 最 后 一 个 是 最 佳 选择 。 写 法 g(N) =@(N ) 不 仅 表 示 g(N) =0(N ) 而 且 还 表示 结果 尽 
可 能 地 好 (严密 ) 。 

我 们 需要 掌握 的 重要 结论 为 : ae 

法 则 1: 

AR T,(N) =O(f(N)) B. T,CN) =0(g(N)), 那么 

(a) T(N) € ,CN) =O(fCN) +g(N))( 直 观 地 和 非 正 式 地 可 以 写成 max (0(f(N))， 
O(g(N)))). 

(b) T,(N) * ,(N) =O(fCN) *g(N)). 


法 则 2: 
如 果 7T(N) 是 一 个 上 次 多 项 式 , M TON) = O(N). 
法 则 3: 


对 任意 常数 k,log*'N = O(V) 。 它 告诉 我 们 对 数 增 长 得 非常 缓慢 。 
这 些 信 息 足 以 按照 增长 率 对 大 部 分 常见 的 函数 进行 分 类 ( 见 图 2-1)。 
有 几 点 需要 注意 。 首 先 , 将 常数 或 低 阶 项 放 进 大 0 是 非 “ 产 -一 一 一 














常 坏 的 习惯 。 不 要 写成 TC(N) = 0(2) 或 T(N) =O(N +N), | A | 名 称 | 
在 这 两 种 情形 下 , 正确 的 形式 是 ZT(N) =0(NY)。 这 就 是 说 , 在 g 常数 
需要 大 0 表示 的 任何 分 析 中 , 各 种 简化 都 是 可 能 发 生 的 。 低 对 数 
阶 项 一 般 可 以 被 忽略 , 而 常数 也 可 以 弃 掉 。 此 时 , 要 求 的 精度 lag^N 对 数 平方 的 
是 很 粗糙 的 。 n 线性 的 
第 二 , 我们 总 能 够 通过 计算 极限 lim, Lf (ON) 7g CN) 3k if ion 
定 两 个 函数 /(NN) A e CN) 的 相对 增长 率 , 必要 的 时 候 可 以 使 v 二 次 的 
用 洛 必 达 法 则 ?。 该 极限 可 以 有 四 种 可 能 的 值 : N 三 次 的 
© 极限 是 0: 这 意味 着 /( NN) =o(g(N) ) 。 2" 指数 的 
e 极限 是 e 关 0: AMARA SCN) = @(g(N))。 图 2-1 典型 的 增长 率 


e 极限 是 % : 这 意味 着 gN) =o(f(N))。 

© 极限 摆动 : 二 者 无 关 ( 在 本 书 中 将 不 会 发 生 这 种 情形 ) 。 

使 用 这 种 方法 几乎 总 能 够 算出 相对 增长 率 , 不 过 有 些 复杂 化 。 通 常 , 两 个 函数 /(N) 和 
g(NN) 间 的 关系 用 简单 的 代数 方法 就 能 得 到 。 例 如 ,如果 f(N) = Mog(N) All g(N) = ,那么 
为 了 确定 A N) 和 g(N) 哪 个 增长 得 更 快 , 实际 上 就 是 确定 logN 和 AN “哪个 增长 更 快 。 这 与 确定 
log ^ N 和 WN 哪个 增长 更 快 是 一 样 的 , 而 后 者 是 个 简单 的 问题 , 因为 我 们 已 经 知道 , N 的 增长 要 
TRF log 的 任意 的 需 。 因 此 , g( NN) 的 增长 快 于 A(N) 的 增长 。 

另外 , 在 风格 上 还 应 注意 : AEG MSN) <0(g(N) ), 因为 定义 已 经 隐 含 有 不 等 式 了 。 写 
RAIN) zZO(gCN) ) 是 错误 的 , 它 没有 意义 。 

作为 所 执行 的 典型 类 型 分 析 的 例子 , 考虑 在 互联 网 上 下 载 文 件 的 问题 。 设 有 初始 3s 的 延迟 





日 ” 洛 必 达 法 则 说 的 是 , 车 limw ,sf(N) =% H limy ,sg(N)=%, Sil limy .f(N)/g(N) =limy ,sf '(N)/g CN)， 
fij f CN) RI g NAIEAN) IL g CN) PL SEC. 
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(来 建立 连接 ) , 此 后 下 载 以 1. SK(B)/s 的 速度 进行 。 可 以 推出 , 如 果 文 件 为 N 个 KB, 那么 下 载 时 
间 由 公式 T(N) 2 N/1.5 +3 表示 。 这 是 一 个 线性 函数 (linear function)。 注 意 , 下 载 一 个 1 500K 的 
文件 所 用 时 间 (1003s) 近 似 ( 但 不 是 精确 ) 地 为 下 载 750K 文件 所 用 时 间 (503s) 的 两 倍 。 这 是 典型 的 
线性 函数 。 还 要 注意 , 如 果 连 接 的 速度 快 两 倍 , 那么 两 种 时 间 都 要 减少 , 但 1 500K 文件 的 下 载 仍 
然 花 费 大 约 下 载 750K 文件 的 时 间 的 两 倍 。 这 是 线性 时 间 算 法 的 典型 特点 , 这 就 是 为 什么 我 们 写 
T(N) =O(N) 而 忽略 常数 因子 的 原因 。( 虽 然 使 用 大 @ 会 更 精确 , 但 是 一 般 给 出 的 是 大 0 答案- ) 

还 要 看 到 , 这 种 行为 不 是 对 所 有 的 算法 都 成 立 。 对 于 1.1 节 描 述 的 第 一 个 选择 算法 , 运行 
时 间 由 执行 一 次 排序 所 花费 的 时 间 来 控制 。 对 诸如 所 提出 的 冒 泡 排序 这 样 的 简单 排序 算法 ， 当 
输入 量 增加 到 两 倍 的 时 候 , 则 对 大 量 输入 的 运行 时 间 增 加 到 4 倍 。 这 是 因为 这 些 算法 不 是 线性 
的 , 我 们 将 看 到 ， 当 讨论 排序 时 , 普通 的 排序 算法 是 O(NT) , 或 叫 作 二 次 的 。 


2.2 模型 


为 了 在 正式 的 构架 中 分 析 算 法 , 我 们 需要 一 个 计算 模型 。 我 们 的 模型 基本 上 是 一 台 标 准 的 
计算 机 , 在 机 器 中 指令 被 顺序 地 执行 。 该 模型 有 一 个 标准 的 简单 指令 系统 , 如 加 法 、 乘 法 、 比 较 
和 赋值 等 。 但 不 同 于 实际 计算 机 情况 的 是 , 模型 机 做 任 一 件 简单 的 工作 都 恰好 花费 一 个 时 间 单 
位 。 为 了 合理 起 见 , 我 们 将 假设 模型 像 一 台 现 代 计 算 机 那样 有 固定 大 小 ( 比如 32 位 ) 的 整数 并 
且 不 存在 如 矩阵 求 逆 或 排序 这 种 想象 的 操作 , 它们 显然 不 能 在 一 个 时 间 单 位 内 完成 。 我 们 还 假 
设 模 型 机 有 无 限 的 内 存 。 

显然 , 这 个 模型 有 些 缺 点 。 很 明显 , 在 现实 生活 中 不 是 所 有 的 运算 都 恰好 花费 相同 的 时 间 。 特 别 
在 我 们 的 模型 中 , 一 次 磁盘 读 和 人 按 一 次 加 法 计时 , 虽然 加 法 一 般 要 快 几 个 数量 级 。 还 有 , 由 于 假设 有 
无 限 的 内 存 , 我 们 再 不 用 担心 缺 页 中 断 , 而 它 可 能 是 个 实际 问题 , 特别 是 对 一 些 高 效 的 算法 。 


2.3 要 分 析 的 问题 


通常 ,要 分 析 的 最 重要 的 资源 就 是 运行 时 间 。 有 几 个 因素 影响 着 程序 的 运行 时 间 。 有 些 因 
素 ( 如 所 使 用 的 编译 器 和 计算 机 ) 显然 超出 了 任何 理论 模型 的 范畴 , 因此 , 虽然 它们 是 重要 的 ， 
但 是 我 们 在 这 里 还 是 不 能 考虑 它们 。 剩 下 的 主要 因素 则 是 所 使 用 的 算法 以 及 对 该 算法 的 输入 。 

典型 的 情形 是 , 输入 的 大 小 是 主要 的 考虑 方面 。 我 们 定义 两 个 函数 7,(N) 和 7 N), 分 别 
为 算法 对 于 输入 量 N 所 花费 的 平均 运行 时 间 和 最 坏 情 况 的 运行 时 间 。 显 然 , Tae (N) ST yee (N) 。 
如 果 存 在 多 于 一 个 的 输入 , 那么 这 些 函 数 可 以 有 多 于 一 个 的 变量 。 

偶尔 也 分 析 一 个 算法 最 好 情形 的 性 能 。 不 过 , 通常 这 没有 什么 重要 意义 ,因为 它 不 代表 典 
型 的 行为 。 平 均 情形 性 能 常常 反映 典型 的 行为 , 而 最 坏 情形 的 性 能 则 代表 对 任何 可 能 输入 的 性 
能 的 一 种 保证 。 还 要 注意 , 虽然 在 这 一 章 我 们 分 析 的 是 Java 程序 , 但 所 得 到 的 界 实际 上 是 算法 
的 界 而 不 是 程序 的 界 。 程 序 是 算法 以 一 种 特殊 编程 语言 的 实现 , 程序 设计 语言 的 细节 几乎 总 是 
不 影响 大 0 的 答案 。 如 果 一 个 程序 比 算法 分 析 提 出 的 速度 慢 得 多 , 那么 可 能 存在 低 效率 的 实 
现 。 这 在 类 似 C ++ 的 语言 中 很 普遍 ,比如 , 数组 可 能 当 作 整 体 而 被 漫不经心 地 拷贝 , 而 不 是 由 
引用 来 传递 。 不 管 怎 么 说 , 这 在 Java 中 也 可 能 出 现 ; 在 12.7 节 的 最 后 两 段 有 一 个 极其 巧妙 的 例 
子 来 说 明 这 个 问题 。 因 此 , 在 后 面 各 章 我 们 将 分 析 算 法 而 不 是 分 析 程 序 。 

一 般 说 来 , 若 无 相 反 的 指定 , 则 所 需要 的 量 是 最 坏 情况 的 运行 时 间 。 其 原因 之 一 是 它 对 所 
有 的 输入 提供 了 一 个 界限 , 包括 特别 坏 的 输入 ， 而 平均 情况 分 析 不 提供 这 样 的 界 。 另 一 个 原因 
是 平均 情况 的 界 计 算 起 来 通常 要 困难 得 多 。 在 某 些 情况 下 ,“ 平 均 ” 的 定义 可 能 影响 分 析 的 结 
果 。( 例 如 , 什么 是 下 述 问题 的 平均 输入 ?) 

作为 一 个 例子 , 我 们 将 在 下 一 节 考 虑 下 述 问题 : 

最 大 子 序列 和 问题 


给 定 (可 能 有 负 的 ) 整 数 4,，4,，…，4,、， 求 YA, 的 最 大 值 。( 为 方便 起 见 ， 如 果 所 有 整 
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数 均 为 负数 ， 则 最 大 子 序列 和 为 0)。 

例如 : 对 于 输入 -2; 11, -4, 13, -5, -2, 答案 为 20( 从 A, 到 4,)。 

这 个 问题 之 所 以 有 吸引 力 , 主要 是 
因为 存在 求解 它 的 很 多 算法 , 而 这 些 算 
法 的 性 能 又 差异 很 大 。 我 们 将 讨论 求解 
该 问题 的 四 种 算法 。 这 四 种 算法 在 某 台 0. 000 002 
计算 机 上 (究竟 是 哪 一 台 具 体 的 计算 机 并 0.000.060 | 0. 000 022 
不 重要 ) 的 运行 时 间 如 图 2-2 所 示 。 Mir I 

在 表 中 有 几 个 重要 的 情况 值得 注意 。 

对 于 小 量 的 输入 , 这 些 算法 都 在 是 眼 之 MO d MA [007e een 
间 完 成 , 因此 如 果 只 是 小 量 输入 的 情形 ， 图 2-2 计算 最 大 子 序列 和 的 几 种 算法 的 运行 时 间 ( 秒 ) 
那么 花费 大 量 的 努力 去 设计 聪明 的 算法 恐怕 就 太 不 值得 了 。 男 一 方面 近来 对 于 重 写 那些 不 再 
合理 的 基于 小 输入 量 假设 而 在 五 年 以 前 编写 的 程序 确实 存在 巨大 的 市 场 。 现 在 看 来 , 这 些 程序 
太 慢 了 , 因为 它们 用 的 是 一 些 低劣 的 算法 。 对 于 大 量 的 输入 , 算法 4 显然 是 最 好 的 选择 (虽然 算 
法 3 也 是 可 用 的 ) 。 

其 次 , 表 中 所 给 出 的 时 间 不 包括 读 入 数据 所 需要 的 时 间 。 对 于 算法 4, 仅仅 从 磁盘 读 和 人 数 
据 所 用 的 时 间 很 可 能 在 数量 级 上 比 求解 上 述 问 题 所 需要 的 时 间 还 要 大 。 这 是 许多 有 效 算法 的 典 
型 特点 。 数 据 的 读 入 一 般 是 个 瓶颈 ; 一 旦 数据 读 和 人 , 问题 就 会 迅速 解决 。 但 是 , 对 于 低 效 率 的 
算法 情况 就 不 同 了 , 它 必 然 要 占用 大 量 的 计算 机 资源 。 因 此 只 要 可 能 , 使 得 算法 足够 有 效 而 不 
至 成 为 问题 的 瓶颈 是 非常 重要 的 。 

注意 到 具有 线性 复杂 度 的 算法 4 表现 很 好 ， 当 问题 的 规模 增长 了 十 倍 的 时 候 ， 其 运行 时 间 
也 增长 十 倍 。 而 具有 平方 复杂 度 的 算法 2 就 不 行 了 ， 十 倍 的 规模 增长 导致 运行 时 间 大 约 有 百倍 
(10) 的 增长 。 而 立方 级 复杂 度 的 算法 1 的 运行 时 间 则 有 千 倍 (10” ) 的 增长 。 对 于 N=100 000, 
我 们 可 以 预期 算法 1 将 花费 近乎 90000 秒 ( 或 一 天 ) 的 时 间 。 类 似 地 ， 我 们 可 预期 算法 2 用 大 约 
333 秒 来 完成 N=1000000。 然 而 ,算法 2 也 可 能 花 更 多 的 时 间 ， 因 为 在 现代 计算 机 中 ， 内 存 
存 取 N=1000000 可 能 比 处 理 N=100 000 要 慢 ， 这 取决 于 内 存 缓存 的 大 小 。 

图 2-3 指出 这 四 种 算法 运行 时 间 的 增长 率 。 尽 管 该 图 只 包含 N 从 10 到 100 的 值 , 但 是 相对 
增长 率 还 是 很 明显 的 。 虽 然 0( NlogN) 算 法 的 图 看 起 来 是 线性 的 , 但 是 用 直 尺 的 边 (或 是 一 张 
纸 ) 容 易 验 证 它 并 不 是 直线 。 虽 然 0(N) 算 法 的 图 看 似 直 线 , 但 这 只 是 因为 对 于 小 的 N 值 其 中 
的 常数 项 大 于 线性 项 。 图 2-4 显示 了 对 于 更 大 值 的 性 能 。 该 图 明显 地 表明 , 对 于 即使 是 适度 大 
小 的 输入 量 低 效 算法 依然 是 多 么 的 无 用 。 
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2.4 运行 时 间 计算 


有 几 种 方法 估计 一 个 程序 的 运行 时 间 。 前 面 的 表 是 赁 经 验 得 到 的 。 如 果 认 为 两 个 程序 花费 
大 致 相同 的 时 间 , 要 确定 哪个 程序 更 快 的 最 好 方法 很 可 能 就 是 将 它们 编码 并 运行 ! 

一 般 地 , 存在 几 种 算法 思想 , 而 我 们 总 愿意 尽早 除去 那些 不 好 的 算法 思想 , 因此 , 通常 需要 
分 析 算 法 。 不 仅 如 此 , 进行 分 析 的 能 力 常常 提供 对 于 设计 有 效 算法 的 洞察 能 力 。 一 般 说 来 , 分 
析 还 能 准确 地 确定 瓶颈 , 这 些 地 方 值得 仔细 编码 。 

为 了 简化 分 析 , 我 们 将 采纳 如 下 的 约定 : 不 存在 特定 的 时 间 单 位 。 因 此 , 我 们 抛弃 一 些 前 
导 的 常数 。 我 们 还 将 抛弃 低 阶 项 ,从 而 要 做 的 就 是 计算 大 0 运行 时 间 。 由 于 大 0 是 一 个 上 界 ， 
因此 我 们 必须 仔细 , 绝 不 要 低估 程序 的 运行 时 间 。 实 际 上 , 分 析 的 结果 为 程序 在 一 定 的 时 间 范 
围 内 能 够 终止 运行 提供 了 保障 。 程 序 可 能 提前 结束 , 但 绝 不 可 能 错 后 。 

2.4.1 一 个 简单 的 例子 


这 里 是 计算 YP 的 一 个 简单 的 程序 片段 : 


public static int sum( int n ) 
{ 


int partialSum; 


partialSum = 0; 

for( int i = 1; i <= n; i++ ) 
partialSum += i x i * i; 

return partialSum; 


) 


对 这 个 程序 段 的 分 析 是 简单 的 。 所 有 的 声明 均 不 计时 间 。 第 1 行 和 第 4 行 各 占 一 个 时 间 单 
元 。 第 3 行 每 执行 一 次 占用 4 个 时 间 单 元 (两 次 乘法 , 一 次 加 法 和 一 次 赋值 ), 而 执行 N 次 共 占 
用 4 个 时 间 单 元 。 第 2 行 在 初始 化 六 测试 i<N 和 对 i 的 自 增 运 算 隐 含 着 开销 。 所 有 这 些 的 总 
开销 是 初始 化 1 个 单元 时 间 , 所 有 的 测试 为 N+1 个 单元 时 间 , 而 所 有 的 自 增 运算 为 入 个 单元 
时 间 , 共 2N+2 个 时 间 单 元 。 我 们 忽略 调用 方法 和 返回 值 的 开销 , 得 到 总 量 是 6N +4 个 时 间 单 
元 。 因 此 , 我 们 说 该 方法 是 O(N). 

如 果 每 次 分 析 一 个 程序 都 要 演示 所 有 这 些 工 作 , 那么 这 项 任务 很 快 就 会 变 成 不 可 行 的 负 
担 。 幸 运 的 是 , 由 于 我 们 有 了 大 0 的 结果 , 因此 就 存在 许多 可 以 采取 的 捷径 并 且 不 影响 最 后 的 
结果 。 例 如 , 第 3 行 (每 次 执行 时 ) 显然 是 0(1) 语 句 , 因此 精确 计算 它 究 竟 是 2、3 还 是 4 个 时 
间 单 元 是 思春 的 ; 这 无 关 紧 要 。 第 1 行 与 for 循环 相 比 显然 是 不 重要 的 , 所 以 在 这 里 花费 时 间 
也 是 不 明智 的 。 这 使 我 们 得 到 若干 一 般 法 则 。 
2. 4.2 一 般 法 则 - 

法 则 1 for 循环 

— for 循环 的 运行 时 间 至 多 是 该 for 循环 内 部 那些 语句 (包括 测试 ) 的 运行 时 间 乘 以 迭 
代 的 次 数 。 

法 则 2A— KEW for 循环 

从 里 向 外 分 析 这 些 循 环 。 在 一 组 找 套 循环 内 部 的 一 条 语句 总 的 运行 时 间 为 该 语句 的 运行 时 
间 乘 以 该 组 所 有 的 for 循环 的 大 小 的 乘积 。 

例如 , 下 列 程序 片段 为 ON ) : 

for( i = 0; i < n; i++) 

for( j = 0; j < n; j++ ) 
k++; 


AUN 
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法 则 3 一 一 顺序 语句 
将 各 个 语句 的 运行 时 间 求 和 即 可 (这 意味 着 , 其 中 的 最 大 值 就 是 所 得 的 运行 时 间 ; 见 2.1 节 
中 的 法 则 1(a) ) 。 
例如 , 下 面 的 程序 片段 先是 花费 OCON), 接着 是 O0(NW ) , 因此 总 量 也 是 O(N’) : 
for( i = 0; i < n; i+ ) 
al 17] *90; 
for( i = 0; i < n; i++ ) 
for( j = 0; j « n; i+ ) 
Al he Ed AUes 
法 则 4 一 一 if /else 语句 
对 于 程序 片段 
if( condition ) 
S1 
else 
S2 
— if/else 语句 的 运行 时 间 从 不 超过 判断 的 运行 时 间 再 加 上 S1 和 S2 中 运行 时 间 长 者 
的 总 的 运行 时 间 。 
显然 在 某 些 情形 下 这 么 估计 有 些 过 头 , 但 决 不 会 估计 过 低 。 
其 他 的 法 则 都 是 显然 的 , 但 是 , 分 析 的 基本 策略 是 从 内 部 (或 最 深层 部 分 ) 向 外 展开 工作 
的 。 如 果 有 方法 调用 , 那么 要 首先 分 析 这 些 调用 。 如 果 有 递归 过 程 , 那么 存在 几 种 选择 。 若 递 
归 实 际 上 只 是 被 薄 面 纱 遮 住 的 for 循环 , 则 分 析 通 常 是 很 简单 的 。 例 如 , 下 面 的 方法 实际 上 就 
是 一 个 简单 的 循环 从 而 其 运行 时 间 为 OCN) : 
public static long factorial( int n ) 
{ 
if( n <= 1) 
return 1; 
else 
return n * factorial( n - 1 ); 


} 
实际 上 这 个 例子 对 递归 的 使 用 并 不 好 。 当 递归 被 正常 使 用 时 , 将 其 转换 成 一 个 循环 结构 是 
相当 困难 的 。 在 这 种 情况 下 , 分 析 将 涉及 求解 一 个 递 推 关 系 。 为 了 观察 到 这 种 可 能 发 生 的 情 
É, 考虑 下 列 程序 , 实际 上 它 对 递归 使 用 的 效率 低 得 令 人 惊 谋 。 
public static long fib( int n ) 
{ 


1 if(n<=1) 
2 return 1; 
else 
3 return fib( n - 1) + fib( n- 2); 


} 


初 看 起 来 , 该 程序 似乎 对 递归 的 使 用 非常 聪明 。 可 是 , 如 果 将 程序 编码 并 在 N 值 为 40 左右 时 
运行 , 那么 这 个 程序 让 人 感到 效率 低 得 吓人 。 分 析 是 十 分 简单 的 。 令 TUN) 为 调用 函数 fib(n) 的 
运行 时 间 。 如 果 NN=0 或 N=1, 则 运行 时 间 是 某 个 常数 值 , 即 第 1 行 上 做 判断 以 及 返回 所 用 的 
时 间 。 因 为 常数 并 不 重要 ,所 以 我 们 可 以 说 7(0) = TCU) =1。 对 于 的 其 他 值 的 运行 时 间 则 相 
对 于 基准 情形 的 运行 时 间 来 度量 。 若 W>2, 则 执行 该 方法 的 时 间 是 第 1 行 上 的 常数 工作 加 上 第 
3 行 上 的 工作 。 第 3 行 由 一 次 加 法 和 两 次 方法 调用 组 成 。 由 于 方法 调用 不 是 简单 的 运算 , 因此 
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必须 用 它们 自己 来 分 析 它 们 。 第 一 次 方法 调用 是 £ib(n-1), 从 而 按照 的 定义 它 需 要 T(N -1) 
个 时 间 单 元 。 类 似 的 论证 指出 , 第 二 次 方法 调用 需要 7T(N -2) 个 时 间 单 元 。 此 时 总 的 时 间 需 求 为 
T(N -1) «T(N -2) «2, 其 中 2 指 的 是 第 1 行 上 的 工作 加 上 第 3 行 上 的 加 法 。 于 是 对 于 Nz2, 
有 下 列 关于 fib(n) 的 运行 时 间 公 式 : 
T(N) =T(N-1) +T(N-2) +2 

{Ez fib(N) =fib(N-1) +fib(N-2), 因此 由 归纳 法 容易 证 明 TCN) Sfib(N), fe 1.2.5 节 我 们 
证 明 过 fib(N) < (5/3)" , 类 似 的 计算 可 以 证 明 ( 对 于 NN>4)fib(N) 2 (3/2), 从 而 这 个 程序 的 
运行 时 间 以 指数 的 速度 增长 。 这 大 致 是 最 坏 的 情况 。 通 过 保留 一 个 简单 的 数组 并 使 用 一 个 for 
循环 , 运行 时 间 可 以 显著 降低 。 

这 个 程序 之 所 以 运行 缓慢 , 是 因为 存在 大 量 多 余 的 工作 要 做 , 违反 了 在 1.3 节 中 叙述 的 递归 
的 第 四 条 主要 法 则 (合成 效益 法 则 )。 注 意 , 在 第 3 行 上 的 第 一 次 调用 即 £ib(n -1) 实 际 上 在 某 处 
计算 fib(n -2)。 这 个 信息 被 抛弃 而 在 第 3 行 上 的 第 二 次 调用 时 又 重新 计算 了 一 遍 。 抛 弃 的 信息 
量 递归 地 合成 起 来 并 导致 巨大 的 运行 时 间 。 这 或 许 是 格言 “计算 任何 事情 不 要 超过 一 次 ”的 最 好 
的 实例 , 但 它 不 应 使 你 被 吓 得 远离 递归 而 不 敢 使 用 。 本 书 中 将 随处 看 到 递归 的 杰出 使 用 。 
2.4.8 最 大 子 序列 和 问题 的 求解 

现在 我 们 将 要 和 叙述 四 个 算法 来 求解 早先 提出 的 最 大 子 序列 和 问题 。 第 一 个 算法 如 图 2-5 Bran. 
它 只 是 穷 举 式 地 尝试 所 有 的 可 能 。for 循环 中 的 循环 变量 反映 了 Java 中 数组 从 0 开始 而 不 是 从 1 
开始 这 样 一 个 事实 。 还 有 , 本 算法 并 不 计算 实际 的 子 序 列 ; 实际 的 计算 还 要 添加 一 些 额外 的 代码 。 


/** 

* Cubic maximum contiguous subsequence sum algorithm. 
*/ 

public static int maxSubSuml( int [ ] a ) 

{ 


int maxSum = 0; 


for( int i = 0; i < a.length; i++ ) 
for( int j = i; j < a.length; j+ ) 


int thisSum = 0; 


for( int k = i; k <= j; k++ ) 
thisSum += a[ k ]; 


if( thisSum > maxSum ) 
maxSum = thisSum; 


} - 


1 
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return maxSum; 


) 


N 
-— 





图 2-5 算法 1 


该 算法 肯定 会 正确 运行 (这 用 不 着 花 太 多 的 时 间 去 证 明 ) 。 运 行 时 间 为 0(N ) , 这 完全 取决 
于 第 13 行 和 第 14 行 , 它们 由 一 个 含 于 三 重 柑 套 for 循环 中 的 0(1) 语 句 组 成 。 第 8 行 上 的 循 
环 大 小 为 N。 

第 2 个 循环 大 小 为 N-i, 它 可 能 要 小 , 但 也 可 能 是 NN。 我 们 必须 假设 最 坏 的 情况 , 而 这 可 
能 会 使 得 最 终 的 界 有 些 大 。 第 3 个 循环 的 大 小 为 -i+1 我 们 也 要 假设 它 的 大 小 为 N。 因 此 总 
BUS O(1 + N- N- N) =0(NV)。 第 6 行 总 共 的 开销 只 是 OCT) , 而 语句 16 和 17 也 只 不 过 总 共 
FON), 因为 它们 只 是 两 层 循环 内 部 的 简单 表达 式 。 
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事实 上 , 考虑 到 这 些 循环 的 实际 大 小 , 更 精确 的 分 析 指 出 答案 是 8(N ) ， 而 我 们 上 面 的 估 
计 高 6 fe 不 过 这 并 无 大 碍 ， 因为 常数 不 影响 数量 级 ) 。 一 般 说 来 , 在 这 类 问题 中 上 述 结论 是 正 
确 的 。 精 确 的 分 析 由 和 X X > 得 到 , 该 “ 指出 程序 的 第 14 行 被 执行 多 少 次 。 使 用 
1.2.3 节 中 的 公 \ 式 可 以 对 该 和 从 内 到 外 求 值 。 特别 地 , 我 们 将 用 到 前 UN 个 整数 求 和 以 及 前 入 个 
平方 数 求 和 的 公式 。 首 先 有 

i 1 -it+l 

接着 , 得 到 
ND 





XG-in- 一 


这 个 和 是 对 前 NN - ;个 整数 求 和 而 计算 得 出 的 。 ———— 我 们 有 
(N -i +1)(N - i) 人 
Se 


i=0 
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我 们 可 以 通过 撤除 一 个 for 循环 来 避免 三 次 的 运行 时 间 。 不 过 这 不 总 是 可 能 的 ， 在 这 种 情 
况 下 算法 中 出 现 大 量 不 必要 的 计算 。 纠 正 这 种 低 效率 的 改进 算法 可 以 通过 观察 vA =A, + 
YA, 而 看 出 , 因此 算法 工 中 第 13 行 和 第 14 行 上 的 计算 过 分 地 耗费 了 。 图 2-6 给 出 了 一 种 改进 的 
算法 。 算 法 2 S A O(N?) ; 对 它 的 分 析 甚至 比 前 面 的 分 析 还 简单 。 
/** : 












1 

2 * Quadratic maximum contiguous subsequence sum algorithm. 
3 x/ 

4 public static int maxSubSum2( int [ ] a ) 
5 { 

6 int maxSum = 0; 

7 

8 for( int i = 0; i < a.length; i++ ) 
9 { 

10 int thisSum = 0; 

11 for( int j = i; j « a.length; j++ ) 
12 { 

I3 thisSum += a[ j ]; 

14 

15 if( thisSum » maxSum ) 

16 maxSum = thisSum; 

17 } 

18 } 

19 

20 return maxSum; 

21 } 





图 2-6 算法 2 
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对 这 个 问题 有 一 个 递归 和 相对 复杂 的 OCN log) 解法 , 我 们 现在 就 来 描述 它 。 要 是 真 的 没 
出 现 0(N) (线性 的 ) 解 法 , 这 个 算法 就 会 是 体现 递归 威力 的 极 好 的 范例 了 。 该 方法 采用 一 种 
“分 治 (divide-and-conquer) ”策略 。 其 想法 是 把 问题 分 成 两 个 大 致 相 等 的 子 问题 , 然后 递归 地 
对 它们 求解 , 这 是 “分 ”的 部 分 。“ 治 ”阶段 将 两 个 子 问 题 的 解 修补 到 一 起 并 可 能 再 做 些 少 量 
的 附加 工作 , 最 后 得 到 整个 问题 的 解 。 

在 我 们 的 例子 中 , 最 大 子 序列 和 可 能 在 三 处 出 现 。 或 者 整个 出 现在 输入 数据 的 左 半 部 , 或 
者 整个 出 现在 右 半 部 , 或 者 跨越 输入 数据 的 中 部 从 而 位 于 左右 两 半 部 分 之 中 。 前 两 种 情况 可 以 
递归 求解 。 第 三 种 情况 的 最 大 和 可 以 通过 求 出 前 半 部 分 (包含 前 半 部 分 最 后 一 个 元 素 ) 的 最 大 
和 以 及 后 半 部 分 (包含 后 半 部 分 第 一 个 元 素 ) 的 最 大 和 而 得 到 。 此 时 将 这 两 个 和 相 加 。 作 为 一 
个 例子 , 考虑 下 列 输入 : 


前 半 部 分 后 半 部 分 - 
4 -3 S -2 -1 2 6 -2 


其 中 前 半 部 分 的 最 大 子 序 列 和 为 6( 从 元 素 4, 到 A.) 而 后 半 部 分 的 最 大 子 序列 和 为 8( 从 元 素 Ag 
581 A;) o 

前 半 部 分 包含 其 最 后 一 个 元 素 的 最 大 和 是 4( 从 元 素 4, 到 4, , 而 后 半 部 分 包含 其 第 一 个 元 
素 的 最 大 和 是 7( 从 元 素 A 到 4; ) 。 因 此 , 横 跨 这 两 部 分 且 通 过 中 间 的 最 大 和 为 4+7=11( 从 元 
RA, 到 4,)。 

我 们 看 到 , 在 形成 本 例 中 的 最 大 和 子 序列 的 三 种 方式 中 , 最 好 的 方式 是 包含 两 部 分 的 元 素 。 

是 , 答案 为 11。 图 2-7 提出 了 这 种 策略 的 一 种 实现 手段 。 

有 必要 对 算法 3 的 程序 进行 一 些 说 明 。 递 归 过 程 调用 的 一 般 形 式 是 传递 输入 的 数组 以 及 左 
边界 和 右边 界 , 它们 界定 了 数组 要 被 处 理 的 部 分 。 单 行 驱动 程序 通过 传递 数组 以 及 边界 0 和 
N -1 而 将 该 过 程 启 动 。 

第 8 行 至 第 12 行 处 理 基准 情况 。 如 果 left == right, 那么 只 有 一 个 元 素 , 并 且 当 该 元 
素 非 负 时 它 就 是 最 大 子 序列 。1left > right 的 情况 是 不 可 能 出 现 的 , 除非 N 是 负数 (不 过 ， 
程序 中 小 的 扰动 有 可 能 致使 这 种 混乱 产生 ) 。 第 15 行 和 第 16 行 执行 两 个 递归 调用 。 我 们 可 
以 看 到 , 递归 调用 总 是 对 小 于 原 问 题 的 问题 进行 , 不 过 程序 中 的 小 扰动 有 可 能 破坏 这 个 特 
性 。 第 18 行 至 第 24 行 以 及 第 26 行 至 第 32 行 计算 达到 中 间 分 界 处 的 两 个 最 大 和 的 和 数 。 这 
两 个 值 的 和 为 扩展 到 左右 两 部 分 的 最 大 和 。 例 程 max3 (未 给 出 ) 返 回 这 三 个 可 能 的 最 大 和 中 
的 最 大 者 。 

显然 , 算法 3 需要 比 前 面 两 种 算法 更 多 的 编程 努力 。 然 而 , 程序 短 并 不 总 意味 着 程序 好 。 
正如 我 们 在 前 面 显示 算法 运行 时 间 的 表 中 已 经 经 看 到 的 , 除 最 小 的 输入 量 外 , 该 算法 比 前 两 个 算 
法 明显 要 快 。 

对 运行 时 间 司 的 分 析 方法 与 在 分 析 计 算 斐 波 那 契 数 程序 时 的 方法 类 似 。 令 TON) 是 求解 大 小 
为 N 的 最 大 子 序 列 和 问题 所 花费 的 时 间 。 如 果 N= 1, 则 算法 3 执行 程序 第 8 行 到 第 12 行 花费 
某 个 常数 时 间 量 , 我 们 称 之 为 一 个 时 间 单位 。 于 是 , 7(1) 213. BW, 程序 必须 运行 两 个 递归 调 
用 , 即 在 第 19 行 和 第 32 行 之 间 的 两 个 for 循环 , 以 及 某 个 小 的 短 记 量 , 如 第 14 行 和 第 18 行 。 
这 两 个 for 循环 总 共 接 触 到 从 A, 到 4、 的 每 一 个 元 素 ， 而 在 循环 内 部 的 工作 量 是 常量 ， 因此 ， 
在 第 19 到 32 行 花费 的 时 间 为 O(CN) 。 在 第 8 行 到 第 14 行 , 第 18、26 和 34 行 上 的 程序 的 工作 
量 都 是 常量 , 从 而 与 0(N) 相 比 可 以 忽略 。 其 余 就 是 第 15、16 行 上 运行 的 工作 。 这 两 行 求解 大 
小 为 N/2 的 子 序列 问题 (假设 N 是 偶数 ) 。 因 此 , 这 两 行 每 行 花费 7T(N/2) 个 时 间 单 元 , 共 花 费 
27(N/2) 个 时 间 单元 。 算 法 3 花费 的 总 的 时 间 为 27(N/2) + 0(N)。 我 们 得 到 方程 组 

FEL) =1 
T(N) 2T(N/2) + O(N) 
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/** 
* Recursive maximum contiguous subsequence sum algorithm. 
* Finds maximum sum in subarray spanning a[left..right]. 
* Does not attempt to maintain actual best sequence. 
*/ 
private static int maxSumRec( int [ ] a, int left, int right ) 
{ 
if( left == right ) // Base case 
if( a[ left ] > 0) 
return a[ left ]; 
else 
return 0; 


CAN DU S LUNS 


int center = ( left + right ) / 2; 
int maxLeftSum = maxSumRec( a, left, center ); 
int maxRightSum = maxSumRec( a, center + 1, right ); 


int maxLeftBorderSum - leftBorderSum = 0; 
for( int i = center; i left; i-- ) 
{ 
leftBorderSum += a[ i ]; 
if( leftBorderSum > maxLeftBorderSum ) 
maxLeftBorderSum = leftBorderSum; 


int maxRightBorderSum = 0, rightBorderSum = 0; 
for( int i = center + 1; i <= right; i++ ) 
{ 
rightBorderSum += a[ i ]; 
if( rightBorderSum > maxRightBorderSum ) 
maxRightBorderSum = rightBorderSum; 


} 


return max3( maxLeftSum, maxRightSum, 
maxLeftBorderSum + maxRightBorderSum ); 


} 
| ** 


* Driver for divide-and-conquer maximum contiguous 
* subsequence sum algorithm. 

x/ 

public static int maxSubSum3( int [] a ) 

{ 


} 


return maxSumRec( a, 0, a.length - 1 ); 





图 2-7 算法 3 


为 了 简化 计算 , 我 们 可 以 用 代替 上 面 方程 中 的 O(CN) 项 ; 由 于 T(N) 最 终 还 是 要 用 大 0 来 
表示 , 因此 这 么 做 并 不 影响 答案 。 在 第 7 章 , 我 们 将 会 看 到 如 何 严 格 地 求解 这 个 方程 。 至 于 现 
TE, 如 果 T(N) =2T(N/2) +N, HT(1) =1, BRA T(2) =4=2%2, T(4) =12 =4 #3, T(8) = 
32 =8 +4, 以 及 T(16) =80 =16 *5。 其 形式 是 显然 的 并 且 可 以 得 到 , MÆ N =2', W T(N) = 
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N*(k«*1) Nlog N+N=O(N log N), 

这 个 分 析 假 设 Y 是 偶数, 否则 N/2 就 不 确定 了 。 通 过 该 分 析 的 递归 性 质 可 知 , 实际 上 只 有 
当 六 是 2 的 短 时 结果 才 是 合理 的 , 否则 我 们 最 终 要 得 到 大 小 不 是 偶数 的 子 问题 , 方程 就 是 无 效 
的 了 。 当 NN 不 是 2 MRN, 我 们 多 少 需要 更 加 复杂 一 些 的 分 析 , 但 是 大 0 的 结果 是 不 变 的 

在 后 面 的 章节 中 , 我 们 将 看 到 递归 的 几 个 漂亮 的 应 用 。 这 里 , 我 们 还 是 介绍 求解 最 大 子 序 
列 和 的 第 4 种 方法 , 该 算法 实现 起 来 要 比 递 归 算 法 简单 而 且 更 为 有 效 。 它 在 图 2-8 中 给 出 。 


/** 

* Linear-time maximum contiguous subsequence sum algorithm. 
* 

public static int maxSubSum4( int [ ] a ) 

{ 





int maxSum = 0, thisSum = 0; 
for( int j = 0; j < a.length; j++ ) 


thisSum += a[ j ]; 


l 
2 
3 
4 
3 
6 
7 
8 
9 
10 
11 


if( thisSum » maxSum ) 
maxSum = thisSum; 
else if( thisSum « 0 ) 
thisSum = 0; 
) 


return maxSum; 





图 2-8 算法 4 


不 难 理解 为 什么 时 间 的 界 是 正确 的 , 但 是 要 明白 为 什么 算法 是 正确 可 行 的 却 需 要 多 加 思 
考 。 为 了 分 析 原因 , 注意 , 像 算法 1 和 算法 2 一样 ,j 代 表 当 前 序列 的 终点 , 而 i 代表 当前 序列 的 
起 点 。 碰 巧 的 是 , 如 果 我 们 不 需要 知道 具体 最 佳 的 子 序 列 在 哪里 , 那么 i 的 使 用 可 以 从 程序 上 
被 优化 , 因此 在 设计 算法 的 时 候 假设 i 是 需要 的 , 而 且 我 们 想 要 改进 算法 2。 一 个 结论 是 , 如 果 
a[i] 是 负 的 , 那么 它 不 可 能 代表 最 优 序 列 的 起 点 , 因为 任何 包含 a[i] 的 作为 起 点 的 子 序 列 都 
可 以 通过 用 ali +1 ] 作 起 点 而 得 到 改进 。 类 似 地 , 任何 负 的 子 序列 不 可 能 是 最 优 子 序列 的 前 缀 
(原理 相同 )。 如 果 在 内 循环 中 检测 到 从 alila a[Lj] 的 子 序列 是 负 的 , 那么 可 以 推进 i。 关键 
的 结论 是 , 我 们 不 仅 能 够 把 i 推进 到 i +1, 而 且 实际 上 还 可 以 把 它 一 直 推进 到 j +1。 为 了 看 
清楚 这 一 点 , Op 为 +1 和 了 之 间 的 任 一 下 标 。 开 始 于 下 标 p 的 任意 子 序列 都 不 大 于 在 下 标 
i 开始 并 包含 从 a[i] 到 a[p -1] 的 子 序列 的 对 应 的 子 序列 , 因为 后 面 这 个 子 序列 不 是 负 的 (3 
是 使 得 从 下 标 i 开始 其 值 成 为 负 值 的 序列 的 第 一 个 下 标 )。 因 此 , 把 i 推进 到 j +1 是 没有 风险 
的 : 我 们 一 个 最 优 解 也 不 会 错过 。 

这 个 算法 是 许多 聪明 算法 的 典型 : 运行 时 间 是 明显 的 , 但 正确 性 则 不 那么 容易 看 出 来 。 对 
于 这 些 算法 , 正式 的 正确 性 证 明 ( 比 上 面 的 分 析 更 正式 ) 几乎 总 是 需要 的 ; 然而 , 即使 到 那 时 ， 
许多 人 仍然 还 是 不 信服 。 此 外 , 许多 这 类 算法 需要 更 有 技巧 的 编程 , 这 导致 更 长 的 开发 过 程 。 
不 过 当 这 些 算法 正常 工作 时 , 它们 运行 得 很 快 , 而 我 们 将 它们 和 一 个 低 效 ( 但 容易 实现 ) 的 蛮 力 
算法 通过 小 规模 的 输入 进行 比较 可 以 测试 到 大 部 分 的 程序 原理 。 

该 算法 的 一 个 附带 的 优点 是 , 它 只 对 数据 进行 一 次 扫描 , 一 旦 al i] 被 读 人 并 被 处 理 , E 
就 不 再 需要 被 记忆 。 因 此 ,如 果 数 组 在 磁盘 上 或 通过 互联 网 传送 , 那么 它 就 可 以 被 按 顺 序 读 
A, 在 主 存 中 不 必 存 储 数组 的 任何 部 分 。 不 仅 如 此 , 在 任意 时 刻 , 算法 都 能 对 它 已 经 读 入 的 
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数据 给 出 子 序 列 问题 的 正确 答案 (其 他 算法 不 具有 这 个 特性 ) 。 具 有 这 种 特性 的 算法 叫 作 联 
机 算法 (on-line algorithm) 。 仅 需要 常量 空间 并 以 线性 时 间 运 行 的 联机 算法 几乎 是 完美 的 
算法 。 
2.4.4 ”运行 时 间 中 的 对 数 

分 析 算法 最 混乱 的 方面 大 概 集 中 在 对 数 上 面 。 我 们 已 经 看 到 , 某 些 分 治 算法 将 以 0(N log N) 
时 间 运 行 。 此 外 ,对 数 最 常 出 现 的 规律 可 概括 为 下 列 一 般 法 则 : 如 果 一 个 算法 用 常数 时 间 
(O(1) ) 将 问题 的 大 小 削减 为 其 一 部 分 (通常 是 1/2), 那么 该 算法 就 是 0(log N) 。 另 一 方面 ， 如 
果 使 用 常数 时 间 只 是 把 问题 减少 一 个 常数 的 数量 (如 将 问题 减少 1)，, 那么 这 种 算法 就 是 
O(NN) 的 。 

显然 , 只 有 一 些 特 殊 种 类 的 问题 才能 够 呈 O(log N) 型 。 例 如 ;7 El AUN IC, 则 算法 只 要 
把 这 些 数 读 入 就 必须 耗费 Q(N) 的 时 间 量 。 因 此 ， 当 我 们 谈 到 这 类 问题 的 O log N) 算 法 时 , 通 
常 都 是 假设 输入 数据 已 经 提前 读 和 人。 下 面 , 我 们 提供 具有 对 数 特点 的 三 个 例子 。 

折 半 查找 

第 一 个 例子 通常 叫 作 折 半 查找 ( binary search) 。 

折 半 查找 : 给 定 一 个 整数 和 整数 4,，4, e Avo 后 者 已 经 预先 排序 并 在 内 存 中 , K 
下 标 i 使 得 4, =X, 如 果 开 不 在 数据 中 , 则 返回 ;= -1。 

明显 的 解法 是 从 左 到 右 扫描 数据 ,其 运行 花费 线性 时 间 。 然 而 , 这 个 算法 没有 用 到 该 表 已 
经 排序 的 事实 , 这 就 使 得 算法 很 可 能 不 是 最 好 的 。 一 个 好 的 策略 是 验证 不 是否 是 居中 的 元 素 。 
如 果 是 , 则 答案 就 找到 了 。 如 果 工 小 于 居中 元 素 , 那么 我 们 可 以 应 用 同样 的 策略 于 居中 元 素 左 
边 已 排序 的 子 序列 ; 同 理 , 如 果 针 大 于 居中 元 素 , 那么 我 们 检查 数据 的 右 半 部 分 。( 同样 , 也 存 
在 可 能 会 终止 的 情况 ,) 图 2-9 列 出 了 折 半 查找 的 程序 (其 答案 为 mid) 。 图 中 的 程序 同样 也 反映 
了 Java 语言 数组 下 标 从 0 开始 的 惯例 。 


[** 
* Performs the standard binary search. 
* @return index where item is found, or -1 if not found. 
x/ - 
public static «AnyType extends Comparable<? super AnyType>> 
int binarySearch( AnyType [ ] a, AnyType x ) 
{ 
int low = 0, high = a.length - 1; 


— 
O O09 nut WHE 


while( low <= high ) 


~ 
= 


int mid = ( low + high ) / 2; 


if( a[ mid ].compareTo( x ) < 0 ) 
low = mid + 1; 
else if( a[ mid ].compareTo( x ) > 0 ) 
high = mid - 1; 
else 
return mid; // Found 
} 
return NOT_FOUND; // NOT_FOUND is defined as -1 
} 





图 2-9 折 半 查找 
显然 , 每 次 迭代 在 循环 内 的 所 有 工作 花费 O), 因此 分 析 需 要 确定 循环 的 次 数 。 循 环 从 
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high -low=N-1 开始 ， 并 保持 high-low >-1, REMMI high - low 的 值 至 少将 该 
次 循环 前 的 值 折 半 ; TE, 循环 的 次 数 最 多 为 [log(N -1)1+2。( 例 如 , 若 high - low =128, W] 
在 各 次 迭代 后 high - low 的 最 大 值 是 64, 32, 16, 8, 4, 2, 1, 0, -1.) Abb, 运行 时 间 是 
O(log N) 。 与 此 等 价 , 我 们 也 可 以 写 出 运行 时 间 的 递 推 公式 , 不 过 ， 当 我 们 理解 实际 在 做 什么 
以 及 为 什么 的 原理 时 , 这 种 强行 写 公 式 的 做 法 通常 没有 必要 。 

折 半 查找 可 以 看 作 是 我 们 的 第 一 个 数据 结构 实现 方法 , 它 提供 了 在 O(log N) 时 间 内 的 
contains 操作 , 但 是 所 有 其 他 操作 (特别 是 insert 操作 ) 均 需要 0(N) 时 间 。 在 数据 是 稳定 
( 即 不 允许 插入 操作 和 删除 操作 ) 的 应 用 中 , 这 种 操作 可 能 是 非常 有 用 的 。 此 时 输入 数据 需要 一 
次 排序 , 但 是 此 后 的 访问 会 很 快 。 有 个 例子 是 一 个 程序 , 它 需 要 保留 (产生 于 化 学 和 物理 领域 
的 ) 元 素 周 期 表 的 信息 。 这 个 表 是 相对 稳定 的 , 因为 很 少 会 加 进 新 的 元 素 。 元 素 名 可 以 始终 是 
排序 的 。 由 于 只 有 大 约 110 种 元 素 , 因此 找 出 一 个 元 素 最 多 需要 访问 8 次 。 要 是 执行 顺序 查找 
就 会 需要 多 得 多 的 访问 次 数 。 








欧 几 里 得 算法 - . 
第 二 个 例子 是 计算 最 大公 因 数 的 欧 几 里 得 算 als static long gcd( long m, long n ) 
法 。 两 个 整数 的 最 大 公 因数 (gcd) 是 同时 整除 二 while( n != 0) 
者 的 最 大 整数 。 于 是 , gcd(50，15) =5。 图 2-10 { 
所 示 的 算法 计算 ged(M, N), 假设 MSN 如 果 io gd ias 
N > M, 则 循环 的 第 一 次 迭代 将 它们 互相 交换 )。 n = rem; 
算法 连续 计算 余数 直到 余数 是 0 为 止 , 最 | 
后 的 非 零 余数 就 是 最 大 公 因 数 。 因 此 ， 如 果 ) meni 
M 21989 fil N 21590, 则 余数 序列 是 399，393 ， 
6, 3, 0。 从 而 , ged(1989, 1590) =3。 正 如 例 图 2-10 侈 几 里 得 算法 


子 所 表明 的 , 这 是 一 个 快速 算法 。 

如 前 所 述 , 估计 算法 的 整个 运行 时 间 依 赖 于 确定 余数 序列 究竟 有 多 长 。 虽 然 log N 看 似 像 
理想 中 的 答案 , 但 是 根本 看 不 出 余数 的 值 按照 常数 因子 递减 的 必然 性 ,因为 我 们 看 到 , 例 中 的 
余数 从 399 仅仅 降 到 393。 事 实 上 , 在 一 次 迭代 中 余数 并 不 按照 一 个 常数 因子 递减 。 然 而 , 我 们 
可 以 证 明 , 在 两 次 迭代 以 后 , 余数 最 多 是 原始 值 的 一 半 。 这 就 证 明了 ，, 迭代 次 数 至 多 是 2 log N= 
O(log N) 从 而 得 到 运行 时 间 。 这 个 证 明 并 不 难 ， 因此 我 们 将 它 放 在 这 里 , 可 从 下 列 定 理 直 接 推 
出 它 。 

定理 2.1 如 果 M>N, WWM mod N «M72, 


证 明 : 
存在 两 种 情形 。 如 果 N<M/2, 则 由 于 余数 小 于 和 N, 故 定理 在 这 种 情形 下 成 立 。 另 一 种 情形 
是 N>M/2。 但 是 此 时 M 仅 含有 一 个 W 从 而 余数 为 W -N «M72, 定理 得 证 。 口 


从 土 面 的 例子 来 看 , 2 log N KAA 20, 而 我 们 仅 进行 了 7 次 运算 , 因此 有 人 会 怀疑 这 是 不 
是 可 能 的 最 好 的 界 。 事 实 上 , 这 个 常数 在 最 坏 的 情况 下 还 可 以 稍微 改进 成 1.44log INCAILM ALN 
是 两 个 相 邻 的 斐 波 那 契 数 时 就 是 这 种 情况 ) 。 欧 几 里 得 算法 在 平均 情况 下 的 性 能 需要 大 量 篇 幅 
的 高 度 复杂 的 数学 分 析 , 其 迭代 的 平均 次 数 约 为 (12 ln2 InN) s +1.47。 

Rus 

RER THEa PB Fb RE EAR CE E — TURCO v UG TERIS RT 
数 一 般 都 是 相当 大 的 , 因此, 我 们 只 能 在 假设 有 一 台 机 器 能 够 存储 这 样 一 些 大 整数 (或 有 一 个 
编译 程序 能 够 模拟 它 ) 的 情况 下 进行 我 们 的 分 析 。 我 们 将 用 乘法 的 次 数 作为 运行 时 间 的 度量 。 

计算 X 的 明显 的 算法 是 使 用 NN -1 次 乘法 自 乘 。 有 一 种 递归 算法 效果 更 好 。N<1 是 这 种 
递归 的 基准 情形 。 和 否则 , EN EBA, 我 们 有 =X 2X7, RN AFR, IX XU UT. 
yov s x. 
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例如 , THX’, BHU FUE. 它 只 用 到 9 次 乘法 : 
x a(x: Y = GP. ive) = CX PX, xm zx" 5. x? zx 
显然 , 所 需要 的 乘法 次 数 最 多 是 21ogN,， 因 为 把 问题 分 半 最 多 需要 两 次 乘法 (如 果 Je APA) 
这 里 , 我 们 又 可 写 出 一 个 递 推 公 式 并 将 其 解 出 。 简 单 的 直 沉 避免 了 盲目 的 强行 处 理 。 
图 2-11 中 的 代码 实现 了 这 个 想法 ?。 有 时 


ee $ public static long pow( long x, int n ) 
候 看 一 看 程序 能 够 进行 多 大 的 调整 而 不 影响 其 
正确 性 倒是 很 有 意思 的 。 在 图 2-11 H, 第 5 f if(n==0) 
到 第 6 行 实际 上 不 是 必需 的 , 因为 如 果 是 1， ,return 1; 
那么 第 10 行将 做 同样 的 事情 。 第 10 行 还 可 以 iudica 
写成 : —if( isEven( n ) ) 
10 return pow( x, n - 1) * x; return pw( x * x, n/2); 
else 


而 不 影响 程序 的 正确 性 。 事 实 上 , 程序 仍 将 以 
O(log n) 运行 , 因为 乘法 的 序列 同 以 前 一 样 。 
不 过 , 下 面 所 有 对 第 S 行 的 修改 都 是 不 可 取 的 ， 
虽然 它们 看 起 来 似乎 都 正确 : 图 2-11 高 效率 的 客运 算 

8a return pow( pow( x, 2), n/ 2); 

8b return pow( pow( x, n / 2), 2); 

8c return pow( x, n / 2) * pow( x, n / 2); 
8a 和 8b 两 行 都 是 不 正确 的 , DIOS N 是 2 时 递归 调用 pow 中 有 一 个 是 以 2 作为 第 2 个 参数 。 
这 样 , 程序 产生 一 个 无 限 循环 , 将 不 能 往 下 进行 (最 终 导 致 程序 非 正常 终止 ) 。 

使 用 8c 行 会 影响 程序 的 效率 ,因为 此 时 有 两 个 大 小 为 N/2 的 递归 调用 而 不 是 一 个 。 分 析 
指出 , 其 运行 时 间 不 再 是 O(log N) 。 我 们 把 它 作 为 练习 留 给 读者 去 确定 这 个 新 的 运行 时 间 。 
2.4.5 分 析 结 果 的 准确 性 

根据 经 验 , 有 时 分 析 会 估计 过 大 。 如 果 这 种 情况 发 生 , 那么 或 者 需要 进一步 细 化 分 析 ( 一 般 
通过 机 敏 的 观察 ), 或 者 可 能 是 平均 运行 时 间 显著 小 于 最 坏 情形 的 运行 时 间 , 不 可 能 对 所 得 的 
界 再 加 以 改进 。 对 于 许多 复杂 的 算法 , 最 坏 的 界 通 过 某 个 坏 的 输入 是 可 以 达到 的 , 但 在 实践 中 
它 通 常 是 估计 过 大 的 。 遗 憾 的 是 , 对 于 大 多 数 这 类 问题 , 平均 情形 的 分 析 是 极其 复杂 的 (在 许多 
情形 下 仍然 基 而 未 决 ), 而 最 坏 情 形 的 界 尽管 过 分 地 悲观 , 但 却 是 最 好 的 已 知 解析 结果 。 


小 结 


本 章 对 如 何 分 析 程 序 的 复杂 性 给 出 一 些 提示 。 遗 憾 的 是 , 它 并 不 是 完善 的 分 析 指南 。 简 单 
的 程序 通常 给 出 简单 的 分 析 , 但 是 情况 也 并 不 总 是 如 此 。 作 为 一 个 例子 , 在 本 书 稍 后 我 们 将 看 
到 一 个 排序 算法 ( 希 尔 排序 , 第 7 章 ) 和 一 个 保持 不 相交 集 的 算法 (第 8 章 ), 它们 大 约 都 需要 20 
行程 序 代码 。 和 硕 尔 排序 (Shellsort) 的 分 析 仍 然 不 完善 ,而 不 相交 集 算 法 分 析 极其 困难 , 需要 许多 
页 错综复杂 的 计算 。 不 过 , 我 们 在 这 里 遇 到 的 大 部 分 的 分 析 都 是 简单 的 , 它们 涉及 对 循环 的 
计数 。 

一 类 有 趣 的 分 析 是 下 界 分 析 , 我 们 尚未 接触 到 。 在 第 7 章 我 们 将 看 到 这 方面 的 一 个 例子 : 
证 明 任何 仅 通 过 使 用 比较 来 进行 排序 的 算法 在 最 坏 的 情形 下 只 需要 Q(N log N) 次 比较 。 下 界 
的 证 明 一 般 是 最 困难 的 , 因为 它们 不 只 适用 求解 某 个 问题 的 一 个 算法 而 是 适用 求解 该 问题 的 一 
类 算法 。 

在 本 章 结束 前 , 我 们 指出 此 处 描述 的 某 些 算法 在 实际 生活 中 的 应 用 。gcd 算法 和 求 宕 算法 


return pow( x * x,n/2)* x; 





© Java 提供 一 个 BigInteger 类 , 这 个 类 可 以 用 来 处 理 任意 大 的 整数 。 很 容易 把 图 2-1 改写 成 使 用 
BigInteger 而 不 用 long, 
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应 用 在 密码 学 中 。 特 别 地 , 400 位 数字 的 数 自 乘 至 一 个 大 的 寡 次 (通常 为 另 一 个 400 位 数字 的 
数 ) 而 在 每 乘 一 次 后 只 有 低 400 位 左右 的 数字 保留 下 来 。 由 于 这 种 计算 需要 处 理 400 位 数字 的 
数 , 因此 效率 显然 是 非常 重要 的 。 求 寡 运 算 的 直接 相 乘 会 需要 大 约 10” 次 乘法 , 而 上 面 描述 的 
[49] 算法 在 最 坏 情 形 下 只 需要 大 约 2 600 次 乘法 。 


练习 


2.1 ” 按 增长 率 排列 下 列 函数 : N, /N, NO, N, N log N, N log log N, N log N, N log(N?), 2/N, 
2”，2"? ，37，N ?logN，NV。 指 出 哪些 函数 以 相同 的 增长 率 增长 。 

2.2 BTN) =O(f(N))#IT,(N) =0(f(N))。 下 列 等 式 哪 些 成 立 ? 

a T,(N) +T,(N) -O(f(N)) 
b. T,(N) -T,(N) =0(f(N) ) 
T,(N) 
T,(N) 
d. T,(N) =O(T,(N)) 

2.3 ”哪个 函数 增长 得 更 快 : N log N， 还 是 N17 (80) 

2.4 ”证 明 对 任意 常数 上 ，log*N =o( NN)。 

2.5 KASARASAN) A gN) EASAN) =0(g(N))， 又 不 g(N) =0(f(N))。 

2.6 在 最 近 的 一 次 法 庭审 理 案件 中 , 一 位 法 官 因 茂 视 罪 传讯 一 个 城市 并 命令 第 一 天 交纳 罚金 2 美元 ， 
以 后 每 天 的 罚金 都 要 将 上 一 天 的 罚金 数额 平方 , 直到 该 城市 服从 该 法 官 的 命令 为 止 ( 即 , 罚金 上 
升 如 下 : $2, $4, $16, $256, $65536, =), 

a 在 第 NN 天 罚金 将 是 多 少 ? 
b. 使 罚金 达到 D 美元 需要 多 少 天 ?( 大 0 的 答案 即 可 ) 

2.7 ”对 于 下 列 六 个 程序 片段 中 的 每 一 个 
a. 给 出 运行 时 间 分 析 ( 使 用 大 O) 。 

b. 用 Java 语言 编程 , 并 对 IN 的 若干 具体 值 给 出 运行 时 间 。 
c. 用 实际 的 运行 时 间 与 你 所 做 的 分 析 进 行 比 较 。 
(1) sum = 0; i 
for( i = 0; i < n; i++) 
Sum++; 








=0(1) 


c. 


(2) sum = 0; 
for( i = 0; i < n; i++ ) 
for( j = 03 j < ns j++ ) 
sumt*; 


(3) sum = 0; 
fo(is0;i«nie) 
for( j = 0; j < n +n; je) 
sumt+; 


(4) sum = 0; 
for( i = 0; i <m iH) 
for( j= 0; j < is jt) 
sum++; 
(5) sum = 0; 
for( i = 0; i < n; it) 
for( j = 0; i <1 Ts i+ ) 
for( k = 0; k< j; k++ ) 
sum++; 
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(6) sum = 0; 
for( i = 1; i < n; ie) 
for( Je I; j <1 s ir gH) 
if(j%i==0) 
for( k = 0; k < j; k++ ) 
sum++; 


假设 需要 生成 前 IN 个 整数 的 一 个 随机 置换 。 例 如 ，14,，3，1，5，2} 813, 1, 4, 2, S| 就 是 合 
法 的 置换 , 但 15，4，1，2，1| 则 不 是 ,因为 数 1 出 现 两 次 而 数 3 却 没有 。 这 个 程序 常常 用 于 模 
拟 一 些 算法 。 我 们 假设 存在 一 个 随机 数 生成 器 +, 它 有 方法 randInt (i, 本 )， 它 以 相同 的 概率 
生成 和 j 之 间 的 整数 。 下 面 是 三 个 算法 : nee 

1. 如 下 填 和 从 a[o] 到 afn =:1] 的 数组 a; ATHA ali], 生成 随机 数 直到 它 不 同 于 已 经 生成 的 
alo], a[1]，…，a[i -1] 时 再 将 其 填 人 alil. 

2. 同 算法 (1) , 但 是 要 保存 一 个 附加 的 数组 , 称 为 used 数组 。 当 一 个 随机 数 ran 最 初 被 放 入 数 
组 a 的 时 候 , 置 used[ ran] =true。 这 就 是 说 , 当 用 一 个 随机 数 十 人 a[li] 时 , 可 以 用 一 步 
来 测试 是 否 该 随机 数 已 经 被 使 用 , 而 不 是 像 第 一 个 算法 那样 (可 能 ) 用 i 步 测试 。 

3. 填写 该 数组 使 得 a[ i] =i +1。 然 后 
for( i = 1; i < n; i++ ) 

swapReferences( a[ i ], a[ randInt( 0, i ) ] ); 


a. 证 明 这 三 个 算法 都 生成 合法 的 置换 , 并 且 所 有 的 置换 都 是 可 能 的 。 
b， 对 每 一 个 算法 给 出 你 能 够 得 到 的 尽 可 能 准确 的 期 望 运行 时 间 分 析 ( 用 大 O) 。 
c. 分 别 写 出 程序 来 执行 每 个 算法 10 次 , 得 出 一 个 好 的 平均 值 。 对 N=250，500，1000，2000 
运行 程序 (1); 对 N=25 000，50 000，100 000，200 000，400 000 800 000 运行 程序 (2); 
对 N=100000，200 000，400 000，800 000，1 600 000 3200000, 6400000 运行 程序 (3)。 
d. 将 实际 的 运行 时 间 与 你 的 分 析 进 行 比较 。 
e. 每 个 算法 的 最 坏 情 形 的 运行 时 间 是 什么 ? 
用 运行 时 间 的 估计 值 完成 图 2-2 中 的 表 , 这 些 时 间 太 长 无 法 模拟 。 插 和 人 上 述 三 个 算法 的 运行 时 间 
并 估计 计算 100 万 个 数 的 最 大 子 序列 和 所 需要 的 时 间 。: 你 得 出 哪些 假设 ? 
对 于 手工 进行 计算 所 使 用 的 典型 算法 , 确定 下 列 计算 的 运行 时 间 : 
a. 将 两 个 NN 位 数字 的 整数 相 加 。 
b. 将 两 个 NN 位 数字 的 整数 相 乘 。 
c. 将 两 个 NN 位 数字 的 整数 相 除 。 
一 个 算法 对 于 大 小 为 100 的 输入 花费 0. 5ms。 如 果 运 行 时 间 如 下 , 则 解决 输入 量 大 小 为 500 的 问 
题 需要 花费 多 长 的 时 间 ( 设 低 阶 项 可 以 忽略 ) : 
a. 是 线性 的 
b- O(N log N) 
c. 是 二 次 的 
d. 是 三 次 的 
一 个 算法 对 于 大 小 为 100 的 输入 花费 0.5ms。 如 果 运 行 时 间 如 下 , 则 用 1 分 钟 可 以 解决 多 大 的 问 
题 ( 设 低 阶 项 可 以 忽略 ) : 
a. 是 线性 的 
b. 为 O(N log N) 
d. 是 三 次 的 


N 


WEG) = Y ar 需要 多 少时 间 ? 


i=0 


a. Hifp LB GREAT CREE T 
b. 使 用 2.4.4 节 的 例 程 计算 。 
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*2.21 


2.22 
2,23 
2.24 
2.25 


2.26 


考虑 下 述 算法 ( 称 为 Homer 法 则 ) ASA) = Yaa! 的 值 ; 


poly = 0; 
for( i =n; i >= 0; i-- ) 

poly = x * poly + a[i]; 
a XE x23, f(x) =4x* +8x +x+2 指 出 该 算法 的 各 步 是 如 何 进行 的 。 
b. 解释 该 算法 为 什么 能 够 解决 这 个 问题 。 
c. 该 算法 的 运行 时 间 是 多 少 ? 
给 出 一 个 有 效 的 算法 来 确定 在 整数 4 <A, <43 <… cA, 的 数组 中 是 否 存 在 整数 i 使 得 4,=i。 你 
的 算法 的 运行 时 间 是 多 少 ? 
基于 下 列 各 式 编写 另外 的 ged 算法 (其 中 a>4) 
® gcd(a, b) =2ged(a/2, b/2) zt a Fil b 135929 (C 
© gcd(a, b) 2 gcd(a/2, b) F a 为 偶数 , b 为 奇数 。 
® gcd(a, b) =gcd(a, b/2) 车 a 为 奇数 , b 为 偶数 。 
€ gcd(a, b) 2ged((a*b)/2, (a-b)/2) Æ a Ñb HAR. 
给 出 有 效 的 算法 (及 其 运行 时 间 分 析 ) : 
a. 求 最 小 子 序 列 和 。 


“b. 求 最 小 的 正 子 序列 和 。 
"e 求 最 大 子 序列 乘积 。 


数值 分 析 中 一 个 重要 的 问题 是 对 某 个 任意 的 函数 f 找 出 方程 AX) =0 的 一 个 解 。 如 果 该 函数 是 连 

续 的 并 有 两 个 点 Low 和 high 8:45. fow) IL f( high) 符 号 相反 , 那么 在 low 和 high 之 间 必 然 存在 一 

^R, 并 且 这 个 根 可 以 通过 折 半 查找 求 得 。 写 出 一 个 函数 ， Wf, low 和 high HBR, 并 且 解 出 一 

个 零点 。( 为 了 实现 一 个 泛 型 函数 作为 参数 , 我 们 传递 一 个 函数 对 象 , 让 该 对 象 实现 Function 

接口 ,而 这 个 Function 接口 含有 一 个 方法 £) 为 保证 能 够 终止 , 你 必须 要 做 什么 ? 

课文 中 最 大 相连 子 序 列 和 算法 均 不 给 出 具体 序列 的 任何 指示 。 将 这 些 算法 修改 使 得 它们 以 单个 

对 象 的 形式 返回 最 大 子 序列 的 值 以 及 具体 序列 的 那些 相应 下 标 。 

a. 编写 一 个 程序 来 确定 正 整数 是否 是 素数 。 

b. 你 的 程序 在 最 坏 情形 下 的 运行 时 间 是 多 少 (用 表示 )? (你 应 该 能 够 以 0(VN) 来 完成 这 项 工作 ) 

4 BEF N 的 二 进 制 表示 法 中 的 位 数 。8 的 值 是 多 少 ? 

.你 的 程序 在 最 坏 情 形 下 的 运行 时 间 是 什么 (用 B 表示)? 

e. 比较 确定 一 个 20( 二 进 制 ) 位 的 数 是 否 是 素数 和 确定 一 个 40( 二 进 制 ) 位 的 数 是 否 是 素数 的 运行 
时 间 。 

f 用 NN 或 B 给 出 运行 时 间 更 合理 吗 ? 为 什么 ? 

JE DIL 3E ( Erastothenes ) 得 是 一 种 用 于 计算 小 于 N 的 所 有 素数 的 方法 。 我 们 从 制作 整数 2 到 W 的 

表 开 始 。 找 出 最 小 的 未 被 删除 的 整数 疡 打印 i, 然后 删除 i，2i，3i，…。 当 i>VN 时 , 算法 终止 

该 算法 的 运行 时 间 是 多 少 ? 

证 明 X® 可 以 只 用 8 次 乘法 算出 。 

不 用 递归 , 写 出 快速 求 震 的 程序 。 

给 出 用 于 快速 取 寡 运算 中 的 乘法 次 数 的 精确 计数 。( 提示: 考虑 N 的 二 进 制 表示 ) 

程序 4 和 B 经 分 析 发 现 其 最 坏 情形 运行 时 间 分 别 不 大 于 150N log, N AlN’, WAT AE, 请 回答 下 

列 问题 : 

a. 对 于 NN 的 大 值 (N>10000), 哪 一 个 程序 的 运行 时 间 有 更 好 的 保障 ? 

b. 对 于 WN 的 小 值 (N<100), 哪 一 个 程序 的 运行 时 间 有 更 好 的 保障 ? 

c. 对 于 N=1 000, 哪 一 个 程序 平均 运行 得 更 快 ? 

d. 对 于 所 有 可 能 的 输入 , 程序 B 是 否 总 能 够 比 程 序 A 运行 得 更 快 ? 

大 小 为 N 的 数组 4, 其 主 元 素 是 一 个 出 现 超过 N/2 次 的 元 素 ( 从 而 这 样 的 元 素 最 多 有 一 个 )。 例 

n, 数组 
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3, 3,42, 4, 4,2, 4, 4 
fi — ERE 4, 而 数组 

3,3,4,2,4,4,2,4 
没有 主 元 素 。 如 果 没 有 主 元 素 , 那么 你 的 程序 应 该 指出 来 。 下 面 是 求解 该 问题 的 一 个 算法 的 概要 : 
首先 , 找 出 主 元 素 的 一 个 候选 元 ( 这 是 困难 的 部 分 ) 。 这 个 候选 元 是 唯一 有 可 能 是 主 元 素 的 元 素 。 
第 二 步 确定 是 否 该 候选 元 实际 上 就 是 主 元 素 。 这 正好 是 对 数组 的 顺序 搜索 。 为 找 出 数组 4 的 一 
个 候选 元 , 构造 第 二 个 数组 B。 比 较 A, 和 4,。 如 果 它 们 相等 , 则 取 其 中 之 一 加 到 数组 8 中 ; 否则 
什么 也 不 做 。 然 后 比较 4 MA, 同样 ,如果 它们 相等 , 则 取 其 中 之 一 加 到 B rp; 否则 什么 也 不 
做 。 以 该 方式 继续 下 去 直到 读 完 整个 的 数组 。 然 后 , 递归 地 寻找 数组 B 中 的 候选 元 ; 它 也 是 4 的 
候选 元 ( 为 什么 ) 。 
a. 递归 如 何 终止 ? 


“b， 当 VW 是 奇数 时 的 情形 如 何 处 理 ? 
°c. 该 算法 的 运行 时 间 是 多 少 ? 


d. 我 们 如 何 避 免 使 用 附加 数组 B? 


“e. 编写 一 个 程序 求解 主 元 素 。 


输入 是 一 个 NxN 数字 和 矩阵 并 且 已 经 读 入 内 存 。 每 一 行 均 从 左 到 右 递 增 。 每 一 列 则 从 上 到 下 递 

增 。 给 出 一 个 O(CN) 最 坏 情形 算法 以 决定 数 式 是 否 在 该 矩阵 中 。 

使 用 正 数 的 数组 a 设计 有 效 的 算法 以 确定 : 

a a[j] +a[i] 的 最 大 值 , 其 中 3i. 

b. a[j] -a[li] 的 最 大 值 , 其 中 32i, 

c a[3] *a[i] 的 最 大 值 , 其 中 2i. 

d. a[3]/a[ 3 ]fffg KfH, 其 中 oi. 

在 我 们 的 计算 机 模型 中 为 什么 假设 整数 具有 固定 长 度 是 重要 的 ? 

考虑 第 1 章 中 描述 的 字谜 游戏 。 假 设 我 们 固定 最 长 单词 的 大 小 为 10 个 字符 。 

a. 设 RC 和 多分 别 表示 字谜 游戏 中 的 行 数 、 列 数 和 单词 个 数 , 那么 在 第 1 章 所 描述 的 那些 算法 
FAR, C 和 表示 的 运行 时 间 是 多 少 ? 

b. 设 单词 表 是 预先 排序 过 的 。 指 出 如 何 使 用 折 半 查找 得 到 一 个 具有 少 得 多 的 运行 时 间 的 算法 。 

设 在 折 半 查找 程序 的 第 15 行 的 语句 是 low =mid 而 不 是 low- mid + 1。 这 个 程序 还 能 正确 运 

行 吗 ? 

实现 折 半 查找 使 得 在 每 次 迭代 中 只 执行 一 次 二 路 比较 。( 课 文中 的 实现 使 用 了 三 路 比较 。 假 设 只 

有 方法 lessThan 是 可 用 的 。) 

设 算法 3( 见 图 2-7) 的 第 15 行 和 第 16 行 由 

I5 int maxLeftSum = maxSubRec( a, left, center - 1 ); 

16 int maxRightSum - maxSubRec( a, center, right ); 


代替 ,这 个 程序 还 能 正确 运行 吗 ? 

三 次 的 最 大 子 序列 和 算法 的 内 循环 执行 N(N+1) (N+2)/6 次 最 内 层 代码 的 迭代 。 相 应 的 二 次 算 
法 执行 NON +1)/2 次 迭代 。 而 线性 算法 执行 N 次 迭代 。 哪 种 模式 是 显然 的 ?你 能 给 出 这 种 现象 
的 组 合 学 解释 吗 ? 
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Data Structures and Algorithm Analysis in Java, Third Edition 


表 、 栈 和 队列 





本 章 讨论 最 简单 和 最 基本 的 三 种 数据 结构 。 实 际 上 , 每 一 个 有 意义 的 程序 都 将 显 式 地 至 少 
使 用 一 种 这 样 的 数据 结构 ,而 栈 则 在 程序 中 总 是 要 被 间接 地 用 到 , 不 管 我 们 在 程序 中 是 否 做 了 
声明 。 本 章 重 点 是 : 

e 介绍 抽象 数据 类 型 的 概念 。 

e 阐述 如 何 有 效 地 执行 表 的 操作 。 

e 介绍 栈 ADT 及 其 在 实现 递归 方面 的 应 用 。 

e 介绍 队列 ADT 及 其 在 操作 系统 和 算法 设计 中 的 应 用 

在 这 一 章 , 我 们 提供 实现 两 个 库 类 重要 子 集 ArrayList 和 LinkedList 的 代码 。 — 


3.1 抽象 数据 类 型 


抽象 数据 类 型 ( abstract data type，ADT) 是 带 有 一 组 操作 的 一 些 对 象 的 集合 。 抽 和 象 数据 类 型 
是 数学 的 抽象 ; 在 ADT 的 定义 中 没有 地 方 提 到 关于 这 组 操作 是 如 何 实现 的 任何 解释 。 诸 如 表 、 
集合 、 图 以 及 与 它们 各 自 的 操作 一 起 形成 的 这 些 对 象 都 可 以 被 看 做 是 抽象 数据 类 型 , 这 就 像 整 
数 、 实 数 、 布尔 数 都 是 数据 类 型 一 样 。 整 数 、 实 数 和 布尔 数 各 自 都 有 与 之 相关 的 操作 , 而 抽象 数 
据 类 型 也 是 如 此 。 对 于 集合 ADT, 可 以 有 像 添 加 (add) 、 删 除 (remove) 以 及 包含 (contain) 这 样 一 
些 操作 。 当 然 , 也 可 以 只 要 两 种 操作 并 (union) 和 查找 (find), 这 两 种 操作 又 在 这 个 集合 上 定义 
了 一 种 不 同 的 ADT。 

Java 类 也 考虑 到 ADT 的 实现 , 不 过 适当 地 隐藏 了 实现 的 细节 。 这 样 , 程序 中 需要 对 ADT 实 
施 操作 的 任何 其 他 部 分 可 以 通过 调用 适当 的 方法 来 进行 。 如 果 由 于 某 种 原因 需要 改变 实现 的 细 
节 , 那么 通过 仅仅 改变 执行 这 些 ADT 操作 的 例 程 应 该 是 很 容易 做 到 的 。 这 种 改变 对 于 程序 的 其 
余部 分 是 完全 透明 的 。 

对 于 每 种 ADT 并 不 存在 什么 法 则 来 告诉 我 们 必须 要 有 哪些 操作 , 这 是 一 个 设计 决策 。 错 误 

处 理 和 结构 调整 (在 适当 的 地 方 ) 一 般 也 取决 于 程序 的 设计 者 。 本 章 中 将 要 讨论 的 这 三 种 数据 
结构 是 ADT 的 最 基本 的 例子 。 我 们 将 会 看 到 它们 中 的 每 一 种 是 如 何以 多 种 方法 实现 的 , 不 过 ， 
当 它们 被 正确 地 实现 以 后 , 使 用 它们 的 程序 却 没 有 必要 知道 它们 是 如 何 实现 的 。 


3.2 表 ADT 


我 们 将 处 理 形 如 4 AL. AS, ，…，4_ 的 一 般 的 表 。 我 们 说 这 个 表 的 大 小 是 N。 我 们 将 大 
小 为 0 的 特殊 的 表 称 为 空 表 (empty list) 。 

对 于 除 空 表 外 的 任何 表 , 我 们 说 4; 后 继 A (或 继 A | 之 后 , i «N)JERR A, AIE A, (120). 
表 中 的 第 一 个 元 素 是 4,, 而 最 后 一 个 元 素 是 4、_,。 我 们 将 不 定义 4, 的 前 驱 元 , 也 不 定义 4A，_, 的 
后 继 元 。 元 素 A, 在 表 中 的 位 置 为 i+1。 为 了 简单 起 见 , 我 们 假设 表 中 的 元 素 是 整数 , 但 一 般 说 
来 任意 的 复元 素 也 是 允许 的 (而 且 容 易 由 Java 泛 型 类 处 理 ) 。 

与 这 些 “ 定 义 ” 相 关 的 是 要 在 表 ADT 上 进行 操作 的 集合 。printList 和 makeEmpty 是 
常用 的 操作 , 其 功能 显而易见 ; fina 返回 某 一 项 首次 出 现 的 位 置 ; insert 和 remove 一 般 是 
从 表 的 某 个 位 置 插入 和 删除 某 个 元 素 ; 而 findKth 则 返回 (作为 参数 而 被 指定 的 ) 某 个 位 置 上 
Wack. We 34, 12, 52, 16, 12 是 一 个 表 , 则 findq(52) 会 返回 2; insert(x, 2) WR 
变 成 34，12，x,，52，16，12( 如 果 我 们 插 和 人 到 给 定位 置 上 的 话 ); 而 remove(52 ) 则 又 将 该 表 
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ABA 34, 12, x, 16, 12, 

当然 ,一 个 方法 的 功能 怎样 才 算 恰当 , 完全 要 由 程序 设计 者 来 确定 ， 就 像 对 特殊 情况 的 处 
理 那样 (例如 ， 上 述 find (1) 返 回 什么 ?)。 我 们 还 可 以 添加 一 些 操作 ， 比 如 next 和 
previous, 它们 会 取 一 个 位 置 作为 参数 并 分 别 返回 其 后 继 元 和 前 驱 元 的 位 置 。 
3.2.1 表 的 简单 数组 实现 

对 表 的 所 有 这 些 操作 都 可 以 通过 使 用 数组 来 实现 。 虽 然 数组 是 由 固定 容量 创建 的 , 但 在 需 
要 的 时 候 可 以 用 双 倍 的 容量 创建 一 个 不 同 的 数组 。 它 解决 由 于 使 用 数组 而 产生 的 最 严重 的 问 
题 , 即 从 历史 上 看 为 了 使 用 一 个 数组 , 需要 对 表 的 大 小 进行 估计 。 而 这 种 估计 在 Java 或 任何 现 
代 编 程 语言 中 都 是 不 需要 的 。 下 列 程序 段 解 释 一 个 数组 arr 在 必要 的 时 候 如 何 被 扩展 (其 初始 
长 度 为 10): 


int [ ] arr = new int[ 10 ]; 


// 下 面 我 们 决定 需要 扩大 arr。 

int [ ] newArr = new int[ arr.length > 2 ]; 

for( int i = 0; i < arr.length; i++ ) 
newArr[ i ] = arr[ i J; 

arr = newArr; 


数组 的 实现 可 以 使 得 printList 以 线性 时 间 被 执行 , 而 £inakcn 操作 则 花费 常数 时 间 ， 
这 正 是 我 们 所 能 够 预期 的 。 不 过 , 插 人 和 删除 的 花费 却 潜藏 着 昂贵 的 开销 , 这 要 看 插入 和 删除 
发 生 在 什么 地 方 。 最 坏 的 情形 下 , 在 位 置 0 的 插入 ( 即 在 表 的 前 端 插入 ) 首先 需要 将 整个 数组 后 
移 一 个 位 置 以 空 出 空间 来 ， 而 删除 第 一 个 元 素 则 需要 将 表 中 的 所 有 元 素 前 移 一 个 位 置 , 因此 这 
两 种 操作 的 最 坏 情况 为 O(V) 。 平 均 来 看 , 这 两 种 操作 都 需要 移动 表 的 一 半 的 元 素 ,， 因 此 仍然 
需要 线性 时 间 。 另 一 方面 , 如 果 所 有 的 操作 都 发 生 在 表 的 高 端 , 那 就 没有 元 素 需 要 移动 ,而 添 
加 和 删除 则 只 花费 0(1) 时 间 。 

存在 许多 情形 , 在 这 些 情形 下 的 表 是 通过 在 高 端 进行 插入 操作 建成 的 , 其 后 只 发 生 对 数组 
的 访问 ( 即 只 有 findkth 操作 ) 。 在 这 种 情况 下 , 数组 是 表 的 一 种 恰当 的 实现 。 然 而 , 如 果 发 
生 对 表 的 一 些 插 入 和 删除 操作 , 特别 是 对 表 的 前 端 进行 , 那么 数组 就 不 是 一 种 好 的 选择 。 下 一 
节 处 理 另 一 种 数据 结构 : 链表 (linked list) 。 
3.2.2 简单 链表 

为 了 避免 插入 和 删除 的 线性 开销 , 我 们 需要 保证 表 可 以 不 连续 存储 ,否则 表 的 每 个 部 分 都 
可 能 需要 整体 移动 。 图 3-1 指出 链表 的 一 般 想 法 。 


me ao Ae Hp 


= -1 图 3-1 一 个 链表 


链表 由 一 系列 节点 组 成 , 这 些 节 点 不 必 在 内 存 中 相连 。 每 一 个 节点 均 含 有 表 元 素 和 到 包含 
该 元 素 后 继 元 的 节点 的 链 (link ) 。 我 们 称 之 为 next 链 。 最 后 一 个 单元 的 next 链 引 用 null. 

为 了 执行 printList 或 fina(x), 只 要 从 表 的 第 一 个 节点 开始 然后 用 一 些 后 继 的 next 
链 遍 历 该 表 即 可 。 这 种 操作 显然 是 线性 时 间 的 ， 和 在 数组 实现 时 一 样 , 不 过 其 中 的 常数 可 能 会 
比 用 数组 实现 时 要 大 。f£indKth 操作 不 如 数组 实现 时 的 效率 高 ; findKth(i) 花 费 0(i) 的 时 
间 并 以 这 种 明显 的 方式 遍历 链表 而 完成 。 在 实践 中 这 个 界 是 保守 的 , 因为 调用 £inakth 常常 
是 以 ( 按 让 排序 后 的 方式 进行 。 例如，findkth(2)，findKkth(3)，findKth(4) 以 及 
findKth(6) 可 通过 对 表 的 一 次 扫描 同时 实现 。 

remove 方法 可 以 通过 修改 一 个 next 引用 来 实现 。 图 3-2 给 出 在 原 表 中 删除 第 三 个 元 素 
的 结果 。 
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图 3-2 ”从 链表 中 删除 


insert 方法 需要 使 用 new 操作 符 从 系统 取得 一 个 新 节点 ,此 后 执行 两 次 引用 的 调整 。 其 
一 般 想法 在 图 3-3 中 给 出 , 其 中 的 虚线 表示 原来 的 next 引用 。 





图 3-3 ”向 链表 插入 


我 们 看 到 , 在 实践 中 如 果 知 道 变动 将 要 发 生 的 地 方 , 那么 向 链表 插入 或 从 链表 中 删除 一 项 
的 操作 不 需要 移动 很 多 的 项 , 而 只 涉及 常数 个 节点 链 的 改变 。 ; 

在 表 的 前 端 添加 项 或 删除 第 一 项 的 特殊 情形 此 时 也 属于 常数 时 间 的 操作 ， 当 然 要 假设 到 链 
表 前 端的 链 是 存在 的 。 只 要 我 们 拥有 到 链表 最 后 节点 的 链 , 那么 在 链表 末尾 进行 添加 操作 的 特 
殊 情 形 ( 即 让 新 的 项 成 为 最 后 一 项 ) 可 以 花费 常数 时 间 。 因 此 , 典型 的 链表 拥有 到 该 表 两 端的 
链 。 删 除 最 后 一 项 比较 复杂 , 因为 必须 找 出 指向 最 后 节点 的 项 , 把 它 的 next 链 改 成 null, 然 
后 再 更 新 持 有 最 后 节点 的 链 。 在 经 典 的 链表 中 , 每 个 节点 均 存 储 到 其 下 一 节点 的 链 ， 而 拥有 指 
向 最 后 节点 的 链 并 不 提供 最 后 节点 的 前 驱 节 点 的 任何 信息 。 

保留 指向 最 后 节点 的 节点 的 第 3 个 链 的 想法 行 不 通 , 因为 它 在 删除 操作 期 间 也 需要 更 新 。 
我 们 的 做 法 是 , 让 每 一 个 节点 持 有 一 个 指向 它 在 表 中 的 前 驱 节 点 的 链 , 如 图 3-4 所 示 , 我 们 称 之 
为 双 链 表 ( doubly linked list) 。 








图 3-4 MK 


3.3 Java Collections API 中 的 表 


在 类 库 中 ，Java 语言 包含 有 一 些 普通 数据 结构 的 实现 。 该 语言 的 这 一 部 分 通常 叫 作 
Collections API。 表 ADT 是 在 Collections API 中 实现 的 数据 结构 之 一 。 我 们 将 在 第 4 章 看 到 其 
他 一 些 数据 结构 。 

3. 3.1 collection 接口 

Collections API 位 于 java. util 包 中 。 集 合 (collection ) 的 概念 在 Collection 接口 中 得 
到 抽象 , 它 存储 一 组 类 型 相同 的 对 象 。 图 3-5 显示 该 接口 一 些 最 重要 的 部 分 (但 一 些 方法 未 
被 显示 ) 。 

在 Collection 接口 中 的 许多 方法 所 做 的 工作 由 它们 的 英文 名 称 可 以 看 出 , 因此 size 返 
回 集合 中 的 项 数 ; isEmpty 返回 true 当 且 仅 当 集合 的 大 小 为 0。 如 果 x 在 集合 中 , UI 
contains 返回 true, ER, 这 个 接口 并 不 规定 集合 如 何 决 定 x 是 否 属于 该 集合 一 一 这 要 由 
实现 该 Collection 接口 的 具体 的 类 来 确定 。add 和 remove 从 集合 中 添加 和 删除 x, 如果 操 
作成 功 则 返回 true, 如 果 因 某 个 看 似 有 理 ( 非 异常 ) 的 原因 失败 则 返回 false。 例 如 ,如 果 要 
删除 的 项 不 在 集合 中 , 则 remove 可 能 失败 , 而 如 果 特 定 的 集合 不 允许 重复 , 那么 当 企 图 插入 
一 项 重复 项 时 ,add 操作 就 可 能 失败 。 
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public interface Collection<AnyType> extends Iterable<AnyType> 
{ 

int size( ); 

boolean isEmpty( ); 

void clear( ); 


boolean contains( AnyType x ); 

boolean add( AnyType x ); 

boolean remove( AnyType x ); 

java.util. Iterator<AnyType> iterator( ); 





图 3-5 java. util 包 中 Collection 接口 的 子 集 


Collection 接口 扩展 了 Iterable 接口 。 实 现 Iterable 接口 的 那些 类 可 以 拥有 增强 
的 for 循环 , 该 循环 施 于 这 些 类 之 上 以 观察 它们 所 有 的 项 。 例 如 , 图 3-6 中 的 例 程 可 以 用 来 打 
印 任意 集合 中 的 所 有 的 项 。 这 种 方式 的 print 的 实现 和 当 coll 具有 类 型 AnyType[ | 时 能 够 
使 用 的 相应 的 实现 是 完全 相同 的 , 它们 逐个 字符 都 是 一 样 的 。 


public static <AnyType> void print( Collection<AnyType> coll ) 
{ 







for( AnyType item : coll ) 
System.out.println( item ); 


图 3-6 在 Iterable 类 型 上 使 用 增强 的 for 循环 


3.3.2 Iterator 接口 
实现 Iterable 接口 的 集合 必须 提供 一 个 称 为 iterator 的 方法 , 该 方法 返回 一 个 Iterator 
类 型 的 对 象 。 该 Iterator 是 一 个 在 java. util 包 中 定义 的 接口 , 见 图 3-7。 
Iterator 接口 的 思路 是 , 通过 iterator Jy 


public interface Iterator<AnyType> 


法 , 每 个 集合 均 可 创建 并 返回 给 客户 一 个 实现 eee 
Iterator 接口 的 对 象 , 并 将 当前 位 置 的 概念 在 对 boolean hasNext( ); 


象 内 部 存储 下 来 。 AnyType next( ); 

“每 次 对 next 的 调用 都 给 出 集合 的 (尚未 见 到 VAN gk d 
的 ) 下 一 项 。 因 此 , 第 1 次 调用 next 给 出 第 1 项 ， 
第 2 次 调用 给 出 第 2 项 , 等 等 。hasNext 用 来 告诉 图 3-7 java. util 包 中 的 Iterator 接口 
是 否 存在 下 一 项 。 当 编译 器 见 到 一 个 正在 用 于 Iterable 的 对 象 的 增强 的 for 循环 的 时 候 , € 
用 对 iterator 方法 的 那些 调用 代替 增强 的 for 循环 以 得 到 一 个 Iterator 对 象 , 然后 调用 
next 和 hasNext。 因 此 , 前 面 看 到 的 print 例 程 由 编译 器 重 写 ， 见 图 3-8 所 示 。 


public static <AnyType> void print( Collection<AnyType> coll ) 
{ 





Iterator<AnyType> itr = coll.iterator( ); 
while( itr.hasNext( ) ) 


{ 


AnyType item = itr.next( ); 
System.out.println( item ); 


) 


) 





3-8 ”通过 编译 器 使 用 一 个 迭代 器 改写 的 Iterable 类 型 上 的 增强 的 for 循环 
由 于 Iterator 接口 中 的 现 有 方法 有 限 , 因此 , 很 难 使 用 Iterator 做 简单 遍历 Collection 
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以 外 的 任何 工作 。Iterator 接口 还 包含 一 个 方法 , 叫 作 remove。 该 方法 可 以 删除 由 next 
最 新 返回 的 项 (此 后 , 我 们 不 能 再 调用 remove, 直到 对 next 再 一 次 调用 以 后 ) 。 虽 然 
Collection 接口 也 包含 一 个 remove 方法 , 但 是 , 使 用 Iterator 的 remove 方法 可 能 有 更 
多 的 优点 。 

Iterator 的 remove 方法 的 主要 优点 在 于 ,Collection f remove 方法 必须 首先 找 出 
要 被 删除 的 项 。 如 果 知 道 所 要 删除 的 项 的 准确 位 置 , 那么 删除 它 的 开销 很 可 能 要 小 得 多 。 下 一 
入 我 们 将 要 看 到 一 个 例子 , 是 在 集合 中 每 隔 一 项 删除 一 项 。 这 个 程序 用 和 迭代 器 (iterator ) 很 容易 
编写 , 而 且 比 用 Collection 的 remove 方法 潜藏 着 更 高 的 效率 。 

当 直 接 使 用 Iterator( 而 不 是 通过 一 个 增强 的 for 循环 间接 使 用 ) 时 , 重要 的 是 要 记 住 一 
个 基本 法 则 : 如 果 对 正在 被 迭代 的 集合 进行 结构 上 的 改变 ( 即 对 该 集合 使 用 add, remove 或 
clear 方法 ), 那么 迭代 器 就 不 再 合法 (并 且 在 其 后 使 用 该 迭代 器 时 将 会 有 Concurrent- 
ModificationException 异常 被 抛 出 )。 为 避免 迭代 器 准备 给 出 某 一 项 作为 下 一 项 (next 
item) 而 该 项 此 后 或 者 被 删除 , 或 者 也 许 一 个 新 的 项 正好 插入 该 项 的 前 面 这 样 一 些 讨厌 的 情形 ， 
有 必要 记 住 上 述 法 则 。 这 意味 着 , 只 有 在 需要 立即 使 用 一 个 迭代 器 的 时 候 , 我 们 才 应 该 获取 选 
代 器 。 然 而 , 如 果 人 迭代 器 调用 了 它 自 己 的 remove 方法 , 那么 这 个 迭代 器 就 仍然 是 合法 的 。 这 
是 有 时 候 我 们 更 愿意 使 用 迭代 器 的 remove 方法 的 第 二 个 原因 。 
3.3.3 List #11. ArrayList 类 和 LinkedList 类 

本 节 跟 我 们 关系 最 大 的 集合 就 是 表 (1ist) , 它 由 java. util 包 中 的 List 接口 指定 。List 
接口 继承 了 Collection 接口 , 因此 它 包含 Collection 接口 的 所 有 方法 , 外 加 其 他 一 些 方 
法 。 图 3-9 解释 其 中 最 重要 的 一 些 方法 。 


public interface List<AnyType> extends Collection<AnyType> 
{ 

AnyType get( int idx ); 

AnyType set( int idx, AnyType newVal ); 

void add( int idx, AnyType x ); 

void remove( int idx ); 


ListIterator<AnyType> listIterator(-int pos ); 





3-9 f§ java. util List 接口 的 子 集 


get 和 set 使 得 用 户 可 以 访问 或 改变 通过 由 位 置 索引 idx 给 定 的 表 中 指定 位 置 上 的 项 。 
索引 0 位 于 表 的 前 端 , 索引 size() -1 代表 表 中 的 最 后 一 项 , 而 索引 size( ) 则 表示 新 添加 的 
项 可 以 被 放置 的 位 置 。add 使 得 在 位 置 idx 处 置 人 一 个 新 的 项 (并 把 其 后 的 项 向 后 推移 一 个 位 
置 ) FE, 在 位 置 0 处 add 是 在 表 的 前 端 进行 的 添加 ,而 在 位 置 size( ) 处 的 ada 是 把 被 添 
加 项 作为 新 的 最 后 项 添 人 表 中 。 除 以 anyType 作为 参数 的 标准 的 remove J^, remove 还 被 重 
载 以 删除 指定 位 置 上 的 项 。 最 后 , List 接口 指定 listIterator 方法 , 它 将 产生 比 通常 认为 
的 还 要 复杂 的 迭代 器 。ListIterator 接口 将 在 3.3. 5 节 讨论 。 

List ADT 有 两 种 流行 的 实现 方式 。arrayList 类 提供 了 List ADT 的 一 种 可 增长 数组 的 实 
现 。 使 用 ArrayList 的 优点 在 于 , 对 get 和 sec 的 调用 花费 常数 时 间 。 其 缺点 是 新 项 的 插 人 
和 现 有 项 的 删除 代价 昂贵 ,除非 变动 是 在 ArrayList 的 末端 进行 。LinkedList 类 则 提供 了 
List ADT 的 双 链 表 实 现 。 使 用 LinkedList 的 优点 在 于 , 新 项 的 插入 和 现 有 项 的 删除 均 开销 很 
小 , 这 里 假设 变动 项 的 位 置 是 已 知 的 。 这 意味 着 , 在 表 的 前 端 进行 添加 和 删除 都 是 常数 时 间 的 
操作 ， 由 此 LinkedList 更 提供 了 方法 addFirst 和 removeFirst, addLast 和 
removeLast, WR getFirst 和 getLast 等 以 有 效 地 添加 、 删 除 和 访问 表 两 端的 项 。 使 用 
LinkedList 的 缺点 是 它 不 容易 作 索 引 ， 因此 对 get 的 调用 是 昂贵 的 , 除非 调用 非常 接近 表 的 
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端点 (如 果 对 get 的 调用 是 对 接近 表 后 部 的 项 进行 , 那么 搜索 的 进行 可 以 从 表 的 后 部 开始 ) 。 
为 了 看 出 差别 , 我 们 考察 对 一 个 List 进行 操作 的 某 些 方 法 。 首 先 , 设 我 们 通过 在 末端 添加 一 些 
项 来 构造 一 个 List。 
public static void makeListl( List<Integer> Ist, int N ) 
{ 
Ist.clear( ); 
for( int i = 0; i < N; i++ ) 
lst.add( i ); 

) 

A ArrayList 还 是 LinkedList 作为 参数 被 传递 , makeListl 的 运行 时 间 都 是 OCN), 
因为 对 add 的 每 次 调用 都 是 在 表 的 末端 进行 从 而 均 花费 常数 时 间 ( 可 以 忽略 对 ArrayList 偶尔 
进行 的 扩展 ) 。 另 一 方面 , 如 果 我 们 通过 在 表 的 前 端 添加 一 些 项 来 构造 一 个 List: 

public static void makeList2( List<Integer> Ist, int N ) 

{ 

Ist.clear( ); 
for( int i = 0; i < N; i++ ) 
Ist.add( 0, i ); 

} 
那么 , 对 于 LinkedList 它 的 运行 时 间 是 O(N), 但 是 对 于 ArrayList 其 运行 时 间 则 是 O(N’), 
因为 在 ArrayList 中 , 在 前 端 进行 添加 是 一 个 OCN) 操作 。 

下 一 个 例 程 是 计算 List 中 的 数 的 和 : 

public static int sum( List<Integer> Ist ) 

{ 

int total = 0; 

for( int i = 0; i < N; i++ ) 
total += Ist.get( i ); 

return total; 

} 

MH, ArrayList 的 运行 时 间 是 O(N), 但 对 于 LinkedList 来 说 , 其 运行 时 间 则 是 O(N’), 
因为 在 LinkedList rh, 对 get 的 调用 为 0( 入) 操作 。 可 是 ,要 是 使 用 一 个 增强 的 for 循环 ， 
那么 它 对 任意 List 的 运行 时 间 都 是 OCN), 因为 迭代 器 将 有 效 地 从 一 项 到 下 一 项 推进 。 

对 搜索 而 言 , ArrayList Al LinkedList 都 是 低 效 的 , 对 Collection fy contains 和 
remove 两 个 方法 (它们 都 以 AnyType 为 参数 ) 的 调用 均 花 费 线性 时 间 。 

在 ArrayList 中 有 一 个 容量 的 概念 , 它 表示 基 础 数组 的 大 小 。 在 需要 的 时 候 , ArrayList 将 
自动 增加 其 容量 以 保证 它 至 少 具有 表 的 大 小 。 如 果 该 大 小 的 早期 估计 存在 , 那么 ensureCapacity 
可 以 设置 容量 为 一 个 足够 大 的 量 以 避免 数组 容量 以 后 的 扩展 。 再 有 ,trimTosize 可 以 在 所 有 
的 ArrayList 添加 操作 完成 之 后 使 用 以 避免 浪费 空间 。 

3.3.4 例子 : remove 方法 对 LinkedList 类 的 使 用 

作为 一 个 例子 , 我 们 提供 一 个 例 程 , 将 一 个 表 中 所 有 具有 偶数 值 的 项 删除 。 于 是 ,如果 表 
包含 6, 5, 1, 4, 2, 则 在 该 方法 调用 之 后 , 表 中 仅 有 元 素 5，1。 

当 遇 到 表 中 的 项 时 将 其 从 表 中 删除 的 算法 有 几 种 可 能 的 想法 : 当然 , 一 种 想法 是 构造 一 个 
包含 所 有 的 奇数 的 新 表 , 然后 清除 原 表 , 并 将 这 些 奇数 拷贝 回 原 表 。 不 过 , 我 们 更 有 兴趣 的 是 
写 一 个 干净 的 避免 拷贝 的 表 , 并 在 遇 到 那些 偶数 值 的 项 时 将 它们 从 表 中 删除 。 

对 于 ArrayList 这 几乎 就 是 一 个 失败 策略 。 因 为 从 一 个 ArrayList 的 几乎 是 任意 的 地 
方 进行 删除 都 是 昂贵 的 操作 。 不 过 , 在 LinkedList 中 却 存在 某 种 希望 , 因为 我 们 知道 , 从 已 
知 位 置 的 删除 操作 都 可 以 通过 重新 安排 某 些 链 而 被 有 效 地 完成 。 
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图 3-10 显示 第 一 种 想法 。 在 一 个 ArrayList 上 , 我 们 知道 , remove 的 效率 不 是 很 高 的 , Al 
此 该 程序 花费 的 是 二 次 时 间 。LinkedList 暴露 两 个 问题 。 首 先 , 对 get 调用 的 效率 不 高 , 因此 
例 程 花费 二 次 时 间 。 而 且 , 对 remove 的 调用 同样 地 低 效 , 因为 达到 位 置 i 的 代价 是 昂贵 的 。 


public static void removeEvensVerl( List<Integer> Ist ) 


int i = 0; 
while( i < Ist.size( ) ) 
if( Ist.get( 1) $2 -- 0) 


lst.remove( i ); 
else 
jitt; 





图 3-10 删除 表 中 的 偶数 : 算法 对 所 有 类 型 的 表 都 是 二 次 的 


图 3-11 显示 矫正 该 问题 的 一 种 思路 。 我 们 不 是 用 get, 而 是 使 用 一 个 迭代 器 一 步 步 遍历 该 
表 。 这 是 高 效率 的 。 但 是 我 们 使 用 collection 的 remove 方法 来 删除 一 个 偶数 值 的 项 。 这 
不 是 高 效 的 操作 , 因为 remove 方法 必须 再 次 搜索 该 项 , 它 花费 线性 时 间 。 但 是 我 们 运行 这 个 
PFS RIM BH: 该 程序 产生 一 个 异常 , 因为 当 一 项 被 删除 时 ,由 增强 的 for 循环 所 使 用 
的 基础 迭代 器 是 非法 的 。( 图 3-10 中 的 代码 解释 为 什么 这 样 的 原因 : 我 们 不 能 期 待 增强 的 for 
循环 懂得 只 有 当 一 项 不 被 删除 时 它 才 必须 向 前 推进 。) 

public static void removeEvensVer2( List<Integer> Ist ) 
for( Integer X t 的 ) 


if( x % 2 == 
lst.remove( x ); 





图 3-11 删除 表 中 的 偶数 : 由 于 ConcurrentModificationException 异常 而 无 法 运行 


图 3-12 指出 一 种 成 功 的 想法 : 在 迭代 器 找到 一 个 偶数 值 项 之 后 , 我 们 可 以 使 用 该 迭代 器 来 
删除 这 个 它 刚 看 到 的 值 。 对 于 一 个 LinkedList, 对 该 迭代 器 的 remove 方法 的 调用 只 花费 常 
数 时 间 , 因为 该 欠 代 器 位 于 需要 被 删除 的 节点 (或 在 其 附近 ) 。 因 此 , 对 于 LinkedList, 整个 
程序 花费 线性 时 间 , 而 不 是 二 次 时 间 。 对 于 一 个 ArrayList, 即使 迭代 器 位 于 需要 被 删除 的 节 
点 上 , 其 remove 方法 仍然 是 昂贵 的 , 因为 数组 的 项 必须 要 移动 , 正如 所 料 , 对 于 ArrayList, 
整个 程序 仍然 花费 二 次 时 间 。 


public static void removeEvensVer3( List<Integer> Ist ) 


{ 


Iterator<Integer> itr = Ist.iterator( ); 


while( itr.hasNext( 
if( itr.next( ) 
itr.remove( ); 


1 
2 
3 
4 
5 
6 
7 
8 





图 3-12 删除 表 中 的 偶数 : 对 ArrayList 是 二 次 的 , 但 对 LinkedList 是 线性 的 


如 果 我 们 传递 一 个 LinkedList < Integer > 运行 图 3-12 中 的 程序 , 对 于 一 个 400 000 项 
的 lst, 花费 的 时 间 是 0. 031 fb, 而 对 于 一 个 800 000 项 的 LinkedList 则 花费 0. 062 秒 , 显然 
这 是 线性 时 间 例 程 , 因为 运行 时 间 与 输入 大 小 增加 相同 的 倍数 。 当 我 们 传递 一 个 ArrayList 
«Integer > 时 , 对 于 一 个 400 000 项 的 ArrayList 程序 几乎 花费 2.5 分 钟 ,而 对 于 800 000 
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项 的 ArrayList 程序 花费 大 约 10 分 钟 ; 当 输入 增加 到 2 倍 时 运行 时 间 增 加 到 4 倍 , 这 与 二 次 
的 特征 是 一 致 的 。 
3.3.5 关于 ListIterator 接口 

图 3-13 指出 ，ListIterator 扩展 了 List 的 Iterator 的 功能 。 方 法 previous 和 
hasPrevious 使 得 对 表 从 后 向 前 的 遍历 得 以 完成 。ada 方法 将 一 个 新 的 项 以 当前 位 置 放 和 人 表 
中 。 当 前 项 的 概念 通过 把 迭代 器 看 做 是 在 对 next 的 调用 所 给 出 的 项 和 对 previous 的 调用 所 
给 出 的 项 之 间 而 抽象 出 来 的 。 图 3-14 解释 了 这 种 抽象 。 对 于 LinkedList 来 说 , add 是 一 种 
常数 时 间 的 操作 , 但 对 于 ArrayList 则 代价 昂贵 。set 改变 被 迭代 器 看 到 的 最 后 一 个 值 , 从 
而 对 LinkedList 很 方便 。 例 如, 它 可 以 用 来 从 List 的 所 有 的 偶数 中 减 去 1, 而 这 对 于 
LinkedList 来 说 , 不 使 用 ListIterator 的 set 方法 是 很 难 做 到 的 。 


public interface ListIterator<AnyType> extends Iterator<AnyType> 


boolean hasPrevious( ); 
AnyType previous( ); 


void add( AnyType x ); 
void set( AnyType newVal ); 





图 3-13 java. util 包 中 ListIterator 接口 的 子 集 
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图 3-14 a) 正常 起 始点 : next 返回 5, previous 是 非法 的 , 而 aaa 则 把 项 放 
在 5 前 ; b) next 返回 8, previous 返回 5, ifj aaa 则 把 项 添加 在 5 和 
8 之 间 ; c) next JE}, previous 返回 9, 而 add 则 把 项 置 于 9 后 


3.4 ArrayList 类 的 实现 


在 这 一 节 , 我 们 提供 便于 使 用 的 ArrayList 泛 型 类 的 实现 。 为 避免 与 类 库 中 的 类 相 混 ， 
这 里 将 把 我 们 的 类 叫 作 MyarrayList。 我 们 不 提供 MyCollection 或 MyList 接口 ; 
MyArrayList 是 独立 的 。 在 考查 MyArrayList 代码 (接近 100 行 ) 之 前 , 先 概括 主要 的 细节 。 

1. MyArrayList 将 保持 基础 数组 , 数组 的 容量 , 以 及 存储 在 MyArrayList 中 的 当前 项 数 。 

2. MyArrayList 将 提供 一 种 机 制 以 改变 基础 数组 的 容量 。 通 过 获得 一 个 新 数组 , 将 老 数 
组 拷贝 到 新 数组 中 来 改变 数组 的 容量 ; 允许 虚拟 机 回收 老 数组 。 

3. MyArrayList 将 提供 get 和 set 的 实现 。 

4. MyArrayList 将 提供 基本 的 例 程 , 如 size, isEmpty 和 clear, 它们 是 典型 的 单行 
程序 ; 还 提供 remove, 以 及 两 种 不 同 版 本 的 aaa。 如 果 数 组 的 大 小 和 容量 相同 , 那么 这 两 个 
add 例 程 将 增加 容量 。 

5. MyArrayList 将 提供 一 个 实现 Iterator 接口 的 类 。 这 个 类 将 存储 迭代 序列 中 的 下 一 
项 的 下 标 , 并 提供 next , hasNext Fil remove 等 方法 的 实现 。MyArrayList 的 迭代 器 方法 直 
接 返 回 实现 Iterator 接口 的 该 类 的 新 构造 的 实例 。 

3.4.1 基本 类 

3-15 和 图 3-16 显示 MyArrayList 类 ,: 像 它 的 Collections API 的 对 应 类 一 样 , 存在 
某 种 错误 检测 以 保证 合理 的 限界 ; 然而 , 为 了 把 精力 集中 在 编写 迭代 器 类 的 基本 方面 , 我 们 不 
检测 可 能 使 得 迭代 器 无 效 的 结构 上 的 修改 , 也 不 检测 非法 的 迭代 器 remove 方法 。 这 些 检测 将 
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在 此 后 3.5 节 MyLinkedList 的 实现 中 指出 , 对 于 这 两 种 表 的 实现 它们 是 完全 相同 的 。 


public class MyArrayList<AnyType> implements Iterable<AnyType> 


{ 
private static final int DEFAULT CAPACITY = 10; 


private int theSize; 
private AnyType [ ] theItems; 


public MyArrayList( ) 
{ doClear( ); } 


public void clear( ) 
{ doClear( ); } 


private void doClear( ) 
( theSize = 0; ensureCapacity( DEFAULT CAPACITY ); ) 


public int size( ) 

{ return theSize; } 
public boolean isEmpty(-) 

{ return size( ) == 0; } 
public void trimToSize( ) 

( ensureCapacity( size( ) ); ! 


public AnyType get( int idx ) 
{ 
if( idx < 0 || idx >= size( ) ) 
throw new ArrayIndexOutOfBoundsException( ); 
return theItems[ idx ]; 


public AnyType set( int idx, AnyType newVal ) 
{ 
if( idx « 0 || idx >= size( ) ) 
throw new ArrayIndexOutOfBoundsException( ); 
AnyType old = theItems[ idx ]; 
theltems[ idx ] = newVal; 
return old; 


public void ensureCapacity( int newCapacity ) 
{ 
if( newCapacity < theSize ) 
return; 


AnyType [ ] old = theltems; 
theItems = (AnyType []) new Object[ newCapacity ]; 
for( int i = 0; i < size( ); i+ ) 

theItems[ i ] = old[ i J; 





图 3-15 MyArrayList 类 (第 一 部 分 , 共 两 部 分 ) 
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public boolean add( AnyType x ) 
{ 

add( size( ), x ); 

return true; 


public void add( int idx, AnyType x ) 
{ 
if( theItems.length == size( ) ) 
ensureCapacity( size( ) * 2 * 1); 
for( int i = theSize; i > idx; i-- ) 
theItems[ i ] = theItems[ i - 1 ]; 
theItems[ idx ] = x; 


theSizet+; 


public AnyType remove( int idx ) 
{ 
AnyType removedItem = theItems[ idx ]; 
for( int i = idx; i < size( ) - 1; i++ ) 
theltems[ i ] = theItems[ i + 1 ]; 


theSize--; 


return removedItem; 


public java.util.Iterator«AnyType» iterator( ) 
{ return new ArrayListIterator( ); ) 


private class ArrayListIterator implements java.util.Iterator«AnyType» 


{ 


private int current = 0; 


public boolean hasNext( ) 
{ return current < size( ); } 


public AnyType next( ) 
{ a 
if( !hasNext( ) ) 
throw new java.util.NoSuchElementException( ); 
return theItems[ current++ ]; 


public void remove( ) 
{ MyArrayList.this.remove( --current ); } 





3-16 MyArrayList 类 (第 二 部 分 , 共 两 部 分 ) 
如 5 到 6 行 所 示 , MyarrayList 把 大 小 及 数组 作为 其 数据 成 员 进 行 存储 。 
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MAL 行 到 38 4, 是 几 个 短 例 程 , 即 clear, size, trimToSize, inEmpty, get 以 及 
set 的 实现 。 

ensureCapacity 例 程 如 40 行 到 49 行 所 示 。 容 量 的 扩充 是 用 与 早先 描述 的 相同 的 方法 
来 完成 的 : 第 45 行 存储 对 原始 数组 的 一 个 引用 , 第 46 行 是 为 新 数组 分 配 内 存 , 并 在 第 47 行 和 
48 行将 旧 内 容 拷 贝 到 新 数组 中 。 如 42 行 和 43 行 所 示 , 例 程 ensureCapacity 也 可 以 用 于 收 
缩 基础 数组 , 不 过 只 是 当 指 定 的 新 容量 至 少 和 原 大 小 一 样 时 才 适 用 。 否 则 , ensureCapacity 
的 要 求 将 被 忽略 。 在 第 46 行 , 我 们 看 到 一 个 短语 是 必需 的 , 因为 泛 型 数组 的 创建 是 非法 的 。 我 
们 的 做 法 是 创建 一 个 泛 型 类 型 限界 的 数组 , 然后 使 用 一 个 数组 进行 类 型 转换 。 这 将 产生 一 个 编 
译 器 警告 , 但 在 泛 型 集合 的 实现 中 这 是 不 可 避免 的 。 M 

图 中 显示 了 两 个 版 本 的 aaa。 第 一 个 ada 是 添加 到 表 的 末端 并 通过 调用 添加 到 指定 位 置 
的 较 一 般 的 版 本 而 得 以 简单 实现 。 这 种 版 本 从 计算 上 来 说 是 昂贵 的 , 因为 它 需 要 移动 在 指定 位 
置 上 或 指定 位 置 后 面 的 那些 元 素 到 一 个 更 高 的 位 置 上 。adad 方法 可 能 要 求 增加 容量 。 扩 充 容量 
的 代价 是 非常 昂贵 的 , 因此 , 如 果 容 量 被 扩充 ,那么 , 它 就 要 变 成 原来 大 小 的 两 倍 , 以 避免 不 得 
不 再 次 改变 容量 , 除非 大 小 戏剧 性 地 增加 ( +1 用 于 大 小 是 0 的 情形 ) 。 

remove 方法 类 似 于 add, 只 是 那些 位 于 指定 位 置 上 或 指定 位 置 后 的 元 素 向 低位 移动 一 2 
位 置 。 

剩 下 的 例 程 处 理 iterator 方法 和 相关 迭代 器 类 的 实现 。 在 图 3-16 中 由 第 77 行 至 第 96 
行 显示 。iterator 方法 直接 返回 ArrayListIterator 类 的 一 个 实例 , 该 类 是 一 个 实现 
Iterator 接口 的 类 。ArrayListIterator 存储 当前 位 置 的 概念 , 并 提供 hasNext, next 和 
remove 的 实现 。 当 前 位 置 表示 要 被 查看 的 下 一 元 素 (的 数组 下 标 ), 因此 初始 时 当前 位 置 为 0。 
3.4.2 和 迭代 器 、Java 柑 套 类 和 内 部 类 

ArrayListIterator 使 用 一 个 复杂 Java 结构 , 叫 作 内 部 类 (inner class), RGAE 
MyArrayList 类 内 部 被 声明 , 这 是 被 许多 语言 支持 的 特性 。 然 而 ,Java 中 的 内 部 类 具有 更 微 
妙 的 性 质 。 

为 了 了 解 内 部 类 是 如 何 工 作 的 , 图 3-17 描绘 了 迭代 器 的 思路 (不 过 , REBAR), 使 
ArrayListIterator 成 为 一 个 顶级 类 。 我 们 只 着 重 讨论 MyarrayList 的 数据 域 、MyArray - 
List Wy iterator 方法 以 及 ArrayListIterator 类 (而 不 是 它 的 remove 方法 ) 。 


public class MyArrayList<AnyType> implements Iterable<AnyType> 
{ 

private int theSize; 

private AnyType [ ] theItems; 


public java.util.Iterator<AnyType> iterator( ) 
{ return new ArrayListIterator<AnyType>( ); } 
] 


class ArrayListIterator<AnyType> implements java.util.Iterator<AnyType> 


private int current = 0; 


public boolean hasNext( ) 

{ return current < size( ); ) 
public AnyType next( ) 

{ return theItems[ current++ ]; } 





图 3-17 RAL 号 版 本 (但 不 能 使 用 ) : 迭代 器 是 一 个 顶级 类 并 存储 当前 位 置 。 它 不 能 
使 用 是 因为 theItems 和 size() 不 是 ArrayListIterator 类 的 一 部 分 
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在 图 3-17 中 , ArrayListIterator 是 泛 型 类 , 它 存 储 当 前 位 置 , 程序 在 next 方法 中 试 
图 使 用 当前 位 置 作为 下 标 访 问 数组 元 素 然后 将 当前 位 置 向 后 推进 。 注 意 ， 如 果 arr 是 一 个 数 
2H, 则 arr[idx++ |] 对 数组 使 用 idx, 然后 向 后 推进 iax。 操 作 ++ 在 此 处 存在 问题 。 我 们 这 
里 使 用 的 形式 叫 作 后 缀 ++ 操作 ( postfix ++ operator) , 此 时 的 ++ 是 在 idx 之 后 进行 的 。 但 在 前 
$y ++ 操作 (prefix ++ operator) I, arr[ ++ idx] Jepit idx 然后 再 使 用 新 的 idx 作为 数组 元 
素 的 下 标 。 图 3-17 中 的 问题 在 于 ，theItems[ current ++ ] 是 非法 的 , 因为 theItems 不 是 
ArrayListIterator 的 一 部 分 ; 它 是 MyArrayList 的 一 部 分 。 因 此 程序 根本 没有 意义 。 

最 简单 的 解决 方案 见 图 3-18, 不 过 它 也 有 缺点 , 但 是 以 更 微小 的 方式 呈现 。 在 图 3-18 中 ， 
我 们 通过 让 迭代 器 存储 MyArrayList 的 引用 来 解决 在 迭代 器 中 没有 数组 的 问题 。 这 个 引用 是 
第 二 个 数据 域 , 是 通过 ArrayListIterator 的 一 个 新 的 单 参数 构造 器 而 被 初始 化 的 。 既 然 有 

一 个 MyArrayList 的 引用 , 那么 就 可 以 访问 包含 于 MyArrayList 中 的 数组 域 ( 还 可 得 到 
Wet 的 大 小 , 该 大 小 在 hasNext 中 是 需要 的 )。 

3-18 中 的 问题 在 于 ，theItems 是 MyArrayList 中 的 私有 (private ) W, m H F 
ArrayListIterator 是 一 个 不 同 的 类 , 因此 在 next 方法 中 访问 thertems 是 非法 的 。 最 简 
单 的 修正 办 法 是 改变 theItems 在 MyArrayList 中 的 可 见 性 , 从 private 改 成 某 种 稍 宽松 
的 可 见 性 (如 public, 或 默认 的 可 见 性 , 它 也 被 称 为 包 可 见 性 ( package visibility) ) 。 不 过 , 这 
违反 了 良好 的 面向 对 象 编程 的 基本 原则 , 它 要 求 数 据 应 尽 可 能 地 隐蔽 。 


public class MyArrayList<AnyType> implements Iterable<AnyType> 
{ 

private int theSize; 

private AnyType [ ] theItems; 


public java.util.Iterator«AnyType» iterator( ) 
{ return new ArrayListIterator<AnyType>( this ); } 
) 
class ArrayListIterator<AnyType> implements java.util.Iterator<AnyType> 
( 
private int current = 0; 
private MyArrayList<AnyType> theList; 


public ArrayListIterator( MyArrayList<AnyType> list ) 
{ theList = list; } 


public boolean hasNext( ) 

{ return current < theList.size( ); } 
public AnyType next( ) 

{ return theList.theIltems[ current++ ]; } 





图 3-18 迭代 器 2 号 版 本 (几乎 能 够 使 用 ) : 迭代 器 是 一 个 顶级 类 并 存储 当前 位 置 以 及 一 个 连接 到 
MyArrayList 的 链 。 它 不 能 使 用 是 因为 theItems 在 MyArrayList 类 中 是 私有 的 


图 3-19 显示 另 一 种 解决 方案 , 这 种 方案 能 够 正确 运行 : 使 ArrayListIterator HRE 
2I ( nested class) 。 当 我 们 让 ArrayListIterator Jg— ^ BK E 2S HT, 该 类 将 被 放 人 另 一 个 类 
(此 时 就 是 MyarrayList) 的 内 部 , 这 个 类 就 叫 作 外 部 类 (outer class) 。 我 们 必须 用 static 来 
表示 它 是 骨 套 的 ; AIC static, 将 得 到 一 个 内 部 类 , MAM PE, AMMA. mE 
多 编程 语言 的 典型 的 类 型 。 注 意 , 组 套 类 可 以 被 设计 成 private, 这 很 好 , 因为 此 时 该 戏 套 类 
除 能 够 被 外 部 类 MyArrayList 访问 外 , 其 他 是 不 可 访问 的 。 更 为 重要 的 是 , ARERR 
为 是 外 部 类 的 一 部 分 , 所 以 不 存在 产生 不 可 见 问题 : theItems 是 MyArrayList 类 的 可 见 成 
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fi, 因为 next 是 MyArrayList 的 一 部 分 。 


















] public class MyArrayList<AnyType> implements Iterable<AnyType> 
2 { 

3 private int theSize; 

4 private AnyType [ ] theItems; 

5 awe 

6 public java.util. Iterator<AnyType> iterator( ) 

7 { return new ArrayListIterator<AnyType>( this ); } 

8 

9 private static class ArrayListIterator<AnyType> 

10 implements- java.util .Iterator<AnyType> 
11 { 

12 private int current = 0; 

13 private MyArrayList<AnyType> theList; 

14 adis 

15 public ArrayListIterator( MyArrayList<AnyType> list ) 
16 { theList = list; } 

17 

18 public boolean hasNext( ) 

19 { return current < theList.size( ); } 
20 public AnyType next( ) 





{ return theList.theItems[ current++ ]; } 





图 3-19 和 迭代 器 3 号 版 本 (能 够 使 用 ) : 迭代 器 是 一 个 在 套 类 并 存储 当前 位 置 和 一 个 连接 到 
MyArrayList 的 链 。 它 能 够 使 用 是 因为 该 典 套 类 被 认为 是 MyArrayList 类 的 一 部 分 


既然 我 们 有 了 艇 套 类 , 那么 就 可 以 讨论 内 部 类 。 髓 套 类 的 问题 在 于 , 在 我 们 的 原始 设计 中 ， 
当 编 写 theItems 而 不 引用 其 所 在 的 MyArrayList 的 时 候 , 代码 看 起 来 还 可 以 , 也 似乎 有 意 
X, 但 却 是 无 效 的 , 因为 编译 器 不 可 能 计算 出 哪个 MyarrayList 在 被 引用 。 要 是 我 们 自己 不 
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必 明 了 这 一 点 那 就 好 多 了 , 而 这 恰 是 内 部 类 要 求 我 们 所 要 做 的 。 

当 声 明 一 个 内 部 类 时 , 编译 器 则 添加 对 外 部 类 对 象 的 一 个 隐 式 引用 , 该 对 象 引 起 内 部 类 对 
象 的 构造 。 如 果 外 部 类 的 名 字 是 outer,， 则 隐 式 引用 就 是 Outer. this。 因 此 ， 如 果 
ArrayListIterator 是 作为 一 个 内 部 类 被 声明 有 日 没有 注 明 static, 那么 MyArrayList. this 
和 theList 就 都 会 引用 同一 个 MyArrayList。 这 样 ， items:3,5,2 
cherist 就 是 多 余 的 , JFITTEMUMOR. 

在 每 一 个 内 部 类 的 对 象 都 恰好 与 外 部 类 对 象 的 一 
个 实例 相关 联 的 情况 下 ,内 部 类 是 有 用 的 。 在 这 种 情 
BL. 内 部 类 的 对 象 在 没有 外 部 类 对 象 与 其 关联 时 是 simens Vena 
永远 不 可 能 存在 的 。 对 于 MyArrayList RHA al ab 
的 情形 , 图 3-20 指出 了 MyArrayList 类 和 迭代 器 之 rale m 
间 的 关系 , 此 时 这 些 内 部 类 都 用 来 实现 该 迁 代 器 。 人 

theList. theItems 的 使 用 可 以 由 MyArray-List. this. theItems 代替 。 这 很 难说 
是 一 种 改进 , 但 进一步 的 简化 还 是 可 能 的 。 正 如 this. data 可 以 简写 为 data 一 样 (假设 不 
存在 引起 冲突 的 也 叫 作 data 的 另外 的 变量 ) , MyArrayList. this. theItems 可 以 简写 为 
theItems。 图 3-21 指出 ArrayListIterator 的 简化 。 

首先 , ArrayListIterator 是 隐 式 的 泛 型 类 , 因为 它 现 在 依赖 于 MyArrayList, 而 后 者 
是 泛 型 的 ; 我 们 可 以 不 必 说 这 些 。 
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public class MyArrayList<AnyType> implements Iterable<AnyType> 
( 

private int theSize; 

private AnyType [ ] theItems; 


public java.util.Iterator«AnyType» iterator( ) 
{ return new ArrayListIterator( ); } 
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private class ArrayListIterator implements java.util.Iterator<AnyType> 


{ 


private int current = 0; 


public boolean hasNext( ) 
{ return current < size( ); } 
public AnyType next( ) 
{ return theItems[ current++ ]; } 
public void remove( ) 
( MyArrayList.this.remove( --current ); } 





图 3-21 迭代 器 4 号 版 本 (能 够 使 用 ) : 迭代 器 是 一 个 内 部 类 并 存储 
当前 位 置 和 一 个 连接 到 MyArrayList 的 隐 式 链 


其 次 , theList 没有 了 , 我 们 用 size( ) 和 theItems[ current ++ ] 作 为 MyArray- 
List. this. size( ) 和 MyArrayList. this. theItems[ current ++-] 的 简 记 符 。theList 
作为 数据 成 员 , 它 的 去 除 也 删除 了 相关 的 构造 器 , 因此 程序 又 转变 成 1 号 版 本 的 样式 。 

我 们 可 以 通过 调用 MyArrayList 的 remove 来 实现 迭代 器 的 remove Jrik. HPL 
的 remove 可 能 与 MyArrayList [fJ remove 冲突 , 因此 我 们 必须 使 用 MyarrayList this. 
remove。 注 意 , 在 该 项 被 删除 之 后 , 一些 元 素 需 要 移动 , 因此 current 被 视 为 同一 元 素 也 必 
须 移 动 。 于 是 , 我 们 使 用 -- 而 不 是 -1。 

内 部 类 为 Java 程序 员 带 来 句法 上 的 便利 。 它 们 不 需要 编写 任何 Java 代码 , 但 是 它们 在 语言 
中 的 出 现 使 Java 程序 员 以 自然 的 方式 (如 1 号 版 本 那样 ) 编 写 程序 , 而 编译 器 则 编写 使 内 部 类 对 
象 和 外 部 类 对 象 相关 联 所 需要 的 附加 代码 。 


3.5 LinkedList 类 的 实现 


本 节 给 出 可 以 使 用 的 LinkedList 泛 型 类 的 实现 。 和 在 ArrayList 类 中 的 情形 一 样 , 我 
们 这 里 的 链表 类 将 叫 作 MyLinkeaList 以 避免 与 库 中 的 类 相 混 。 

前 面 提 到 ,LinkeaList 将 作为 双 链表 来 实现 ， 而 且 我 们 还 需要 保留 到 该 玄 表 两 端的 引用 。 
这 样 做 可 以 保持 每 个 操作 花费 常数 时 间 的 代价 , 只 要 操作 发 生 在 已 知 的 位 置 。 这 个 已 知 的 位 置 
可 以 是 端点 , 也 可 以 是 由 迭代 器 指定 的 一 个 位 置 (不 过 , 我 们 不 实现 ListIterator, 因此 有 些 
代码 留 给 读者 去 完成 ) 。 

在 考虑 设计 方面 , 我 们 将 需要 提供 三 个 类 : 

1. MyLinkedList 类 本 身 , 它 包含 到 两 端的 链 、 表 的 大 小 以 及 一 些 方 法 。 

2. Node 类 , 它 可 能 是 一 个 私有 的 舱 套 类 。 一 个 节点 包含 数据 以 及 到 前 一 个 节点 的 链 和 到 

一 个 节点 的 链 , 还 有 一 些 适当 的 构造 方法 。 

3. LinkedListIterator 类 , 该 类 抽象 了 位 置 的 概念 ,是 一 个 私有 类 , 并 实现 接口 

Iterator。 它 提供 了 方法 next, hasNext Al remove 的 实现 。 
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由 于 这 些 迭 代 器 类 存储 “当前 节点 ”的 引用 , 并 且 终端 标记 是 一 个 合理 的 位 置 , 因此 它 对 
于 在 表 的 终端 创建 一 个 额外 的 节点 来 表示 终端 标记 是 有 意义 的 。 更 进一步 , 我们 还 能 够 在 表 的 
前 端 创建 一 个 额外 的 节点 ,逻辑 上 代表 开始 的 标记 。 这 些 额外 的 节点 有 时 候 就 叫 作 标记 节点 
(sentinel node) ; 特别 地 , 在 前 端的 节点 有 时 候 也 叫 作 头 节点 (header node) ， 而 在 未 端的 节点 有 
时 候 也 叫 作 尾 节 点 (tail node) 。 

使 用 这 些 额 外 节点 的 优点 在 于 , 通过 排除 许多 特殊 情形 极 大 地 简化 了 编码 。 例 如 ,如 果 我 
们 不 是 用 头 节 点 , 那么 删除 第 1 个 节点 就 变 成 了 一 种 特殊 的 情况 , 因为 在 删除 期 间 我 们 必须 重 
新 调整 链表 的 到 第 1 个 节点 的 链 , 还 因为 删除 算法 一 般 还 要 访问 被 删除 节点 前 面 的 那个 节点 
(而 车 无 头 节点 , 则 第 1 个 节点 前 面 没 有 节点 ) 。 图 3-22 显示 一 个 带 有 头 节点 和 尾 节 点 的 双 链 
表 。 图 3-23 显示 一 个 空 链表 。 图 3-24 则 显示 MyLinkedList 类 的 概要 和 部 分 的 实现 一 





k 尾 
图 3-22 具有 头 节 点 和 尾 节点 的 双 链 表 图 3-23 具有 头 节 点 和 尾 节 点 的 空 链表 

我 们 在 第 3 LAIMA RARE Node 类 声明 的 开头 部 分 。 图 3-25 显示 这 个 由 所 存储 的 一 
项 组 成 的 Node 类 一 一 它 的 连接 到 前 一 个 Node 的 链 和 下 一 个 Node 的 链 , 还 有 一 个 构造 方法 。 
所 有 的 数据 成 员 都 是 公用 的 。 我 们 知道 , 在 一 个 类 中 , 数据 成 员 通 常 是 私有 的 。 然 而 , 在 一 个 
周 套 类 中 的 成 员 甚至 在 外 部 类 中 也 是 可 见 的 。 由 于 Node 类 是 私有 的 , 因此 在 Node 类 中 的 那 
些 数据 成 员 的 可 见 性 是 无 关 紧 要 的 ; 那些 MyLinkedList 的 方法 能 够 见 到 所 有 的 Node 数据 成 
fi, 而 MyLinkedList 外 面 的 那些 类 则 根本 见 不 到 Node 类 。 

现在 回 到 图 3-24, 第 44 行 到 第 47 FFA MyLinkedList 的 数据 成 员 , 即 到 头 节点 和 到 尾 
节点 的 引用 。 我 们 也 掌握 一 个 数据 成 员 的 大 小 , 从 而 size 方法 可 以 以 常数 时 间 实 现 。 在 第 45 
行 有 一 个 附加 的 数据 域 ; 用 来 帮助 迭代 器 检测 集合 中 的 变化 。modcount 代表 自从 构造 以 来 对 
链表 所 做 改变 的 次 数 。 每 次 对 ada 或 remove 的 调用 都 将 更 新 modCcount。 其 想法 在 于 ， 当 一 
个 迭代 器 被 建立 时 , 他 将 存储 集合 的 moacount 。 每 次 对 一 个 迭代 器 方法 (next 或 remove) 
的 调用 都 将 用 该 链表 内 的 当前 modCount 检测 在 迭代 器 内 存储 的 modCount, 并 且 当 这 两 个 计 
数 不 匹配 时 抛 出 一 个 ConcurrentModificationException 异常 。 

MyLinkedList 类 的 其 余部 分 由 构造 方法 、 和 迭代 器 的 实现 以 及 一 些 方法 组 成 。 许 多 方法 都 
只 是 一 行 代码 。 

图 3-26 中 的 clear 方法 由 构造 方法 调用 。 它 创建 并 连接 头 节点 和 尾 节点 , 然后 设置 大 小 为 0。 

在 图 3-24 的 第 41 行 可 以 看 到 私有 内 部 LinkedListIterator 类 的 声明 的 开头 部 分 。 当 我 们 
在 后 面 看 到 其 具体 实现 时 将 讨论 这 些 细节 。 

图 3-27 解释 一 个 包含 x 的 新 节点 是 如 何 被 拼接 在 由 pp 引用 的 一 个 节点 和 p. prev 之 间 的 。 
这 些 节 点 链 的 赋值 可 以 描述 如 下 : 

Node newNode = new Node( x, p.prev, p ); // 第 1 步 和 第 2 步 


p.prev.next = newNode; // 第 3 步 
p.prev = newNode; // 第 4 步 


第 3 步 和 第 4 步 可 以 合并 , 结果 只 有 两 行 : 
Node newNode = new Node( x, p.prev, p ); // 第 1 步 和 第 2 步 
p.prev = p.prev.next = newNode; // 第 3 步 和 第 4 步 


可 是 这 两 行 还 可 以 合并 , 得 到 : 


p.prev = p.prev.next = new Node( x, p.prev, p ); 
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这 就 缩短 了 图 3-28 中 的 例 程 aadBefore, 








public class MyLinkedList<AnyType> implements Iterable<AnyType> 
{ 


private static class Node<AnyType> 
{ /* Figure 3.25 */ } 


public MyLinkedList( ) 
{ doClear( ); } 


public void clear( ) 

{ /* Figure 3.26 */ } 
public int size( ) 

{ return theSize; } 
public boolean isEmpty( ) 

{ return size( ) == 0; ) 


public boolean add( AnyType x ) 
{ add( size( ), x ); return true; } 
public void add( int idx, AnyType x ) 
{ addBefore( getNode( idx, 0, size( ) ), x ); } 
public AnyType get( int idx ) 
( return getNode( idx ).data; ) 
public AnyType set( int idx, AnyType newVal ) 
{ 
Node<AnyType> p = getNode( idx ); 
AnyType oldVal = p.data; 
p.data = newVal; 
return oldVal; 
} 
public AnyType remove( int idx ) 
{ return remove( getNode( idx ) ); } 


private void addBefore( Node<AnyType> p, AnyType x ) 
{ /* Figure 3.28 */ } 
private AnyType remove( Node<AnyType> p ) 
{ /* Figure 3.30 */ } 
private Node<AnyType> getNode( int idx ) 
{ /* Figure 3.31 */ } 
private Node<AnyType> getNode( int idx, int lower, int upper ) 
{ /* Figure 3.31 */ } 


public java.util. Iterator<AnyType> iterator( ) 
{ return new LinkedListIterator( ); } 


private class LinkedListIterator implements java.util.Iterator<AnyType> 


{ /* Figure 3.32 */ } 


private int theSize; 

private int modCount = 0; 

private Node<AnyType> beginMarker; 
private Node<AnyType> endMarker; 





3-24 MyLinkedList 类 
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private static class Node<AnyType> 


{ 


public Node( AnyType d, Node<AnyType> p, Node<AnyType> n ) 
{ data = d; prev = p; next = n; } 


public AnyType data; 
public Node<AnyType> prev; 
public Node<AnyType> next; 





图 3-25 MyLinkedList AME Node 类 


public void clear( ) 
{ doClear( ); } 


private void doClear( ) 

{ a 
beginMarker = new Node<AnyType>( null, null, null ); 
endMarker = new Node<AnyType>( null, beginMarker, null ); 
beginMarker.next = endMarker; 


theSize = 0; 
modCount++; 





图 3-26 MyLinkedList 类 的 clear 例 程 





图 3-27 通过 获取 一 个 新 节点 ， 然 后 按 所 指示 的 顺序 改变 指针 而 完成 向 一 个 双 链 表 中 的 插入 操作 


CON DU A WN YE 


/** 


- Adds an item to this collection, at specified position p. 


* Items at or after that position are slid one position higher. 

* @param p Node to add before. 

* (param x any object. 

* @throws IndexOutOfBoundsException if idx is not between 0 and size(),. 


private void addBefore( Node<AnyType> p, AnyType x ) 


( 


Node<AnyType> newNode = new Node<>( x, p.prev, p ); 
newNode.prev.next - newNode; 

p.prev = newNode; 

theSizet+; 

modCount++; 





fA 3-28 MyLinkedList 类 的 add 例 程 
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图 3-29 指出 删除 一 个 节点 的 逻辑 过 程 。 如 果 pp 引用 正在 被 删除 的 节点 , 那么 在 该 节点 被 断 
开 连 接 和 可 以 被 虚拟 机 回收 之 前 只 有 两 个 链 改 动 : 


p.prev.next = p.next; 
EL 二 


p.next.prev = p.prev; 
p 


图 3-29 ”从 一 个 双 链 表 中 删除 由 p 指定 的 节点 


图 3-30 显示 基本 的 私有 remove 例 程 , 该 例 程 包含 上 述 两 行 代码 。 

图 3-31 包含 前 面 提 到 的 私有 getNode 方法 。 如 果 索 引 表示 该 表 前 半 部 分 的 一 个 节点 , AE 
么 在 第 16 行 到 第 18 行 我 们 将 以 向 后 的 方向 遍历 该 链表 。 否 则 , 我 们 从 终端 开始 向 回 走 , 如 图 
中 第 22 行 到 第 24 行 所 示 。 








/** 
* Removes the object contained in Node p. 
* @param p the Node containing the object. 
* @return the item was removed from the collection. 
*/ 
private AnyType remove( Node<AnyType> p ) 
{ 
p.next.prev = p.prev; 
p.prev.next = p.next; 
theSize--; 
modCount++; 


1 
2 
3 
4 
3 
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return p.data; 





KI 3-30 MyLinkedList 类 的 remove 例 程 


Gets the Node at position idx, which must range from 0 to size( ) - 1. 
@param idx index to search at. 
@return internal node corresponding to idx. 
@throws IndexOutOfBoundsException if idx is not 
* between 0 and size( ) - 1, inclusive. 
x/ | - 
private Node<AnyType> getNode( int idx ) 
{ 
return getNode( idx, 0, size( ) - 1); 


~~ 
— OU AND UYU AWD — 


} 


æ 
C9 N 


/** 

* Gets the Node at position idx, which must range from lower to upper. 
* @param idx index to search at. 

* @param lower lowest valid index. 


m fs 
nua 





图 3-31 MyLinkedList 类 的 私有 getNode 例 程 
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* @param upper highest valid index. 

* @return internal node corresponding to idx. 

* @throws IndexOutOfBoundsException if idx is not 

* between lower and upper, inclusive. 

*/ 
private Node<AnyType> getNode( int idx, int lower, int upper ) 
{ 

Node<AnyType> p; 


if( idx < lower || idx > upper ) 
throw new IndexOutOfBoundsException(-);- 


if( idx < size( ) / 2) 


{ 
p = beginMarker.next; 
for( int i = 0; i < idx; i++ ) 
p = p.next; 
} 
else 
{ 
p = endMarker; 
for( int i = size( ); i > idx; i-- ) 
P = p.prev; 


} 


return p; 





图 3-31 (4) 


如 图 3-32 所 示 , LinkedListIterator 具有 类 似 于 ArrayListIterator WRH, 但 合 
并 了 重要 的 错误 检测 。 该 迭代 器 保留 一 个 当前 位 置 , 如 第 3 行 所 示 。current 表示 包含 由 调用 
next 所 返回 的 项 的 节点 。 注 意 , 4 current 被 定位 于 endMarker Hf, 对 next 的 调用 是 非 
法 的 。 

为 了 检测 在 迭代 期 间 集合 被 修改 的 情况 , 和 迭代 器 在 第 4 行将 迭代 器 被 构造 时 的 链表 的 
modCount 存储 在 数据 域 expectedModCount 中 。 在 第 5 行 , 如 果 next 已 经 被 执行 而 没有 
其 后 的 remove, 则 布尔 数据 域 okToRemove 为 true。 因 此 , okToRemove 初始 为 false, 在 
next 方法 中 置 为 true, 在 remove 方法 中 置 为 false。 

hasNext 是 一 个 简单 的 例 程 。 和 在 java. util. LinkedList 的 迭代 器 中 一 样 , 它 不 检查 
链表 的 修改 。 

next 方法 在 获得 (第 17 行 ) 将 要 返回 (第 20 行 ) 的 节点 的 值 后 向 后 推进 current( 第 18 
fT), okToRemove 在 第 19 行 被 更 新 。 

最 后 , 和 迭代 器 的 remove 方法 如 第 23 行 至 第 32 行 所 示 。 该 方法 主要 是 错误 检测 (这 就 是 为 
什么 我 们 避免 ArrayListIterator 中 的 错误 检测 的 原因 ) 。 在 第 30 行 上 的 具体 的 remove 
模仿 ArrayListIterator 中 的 迎 辑 。 不 过 在 这 里 current 是 保持 不 变 的 , 因为 current 
正在 观察 的 节点 不 受 前 面 节点 被 删除 的 影响 (在 ArrayListIterator 中 , 项 被 移动 , 要 求 更 


新 current ) 。 
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3.6 #% ADT 
3.6.1 栈 模型 


private class LinkedListIterator implements java.util.Iterator«AnyType» 


{ 


private Node<AnyType> current = beginMarker.next; 
private int expectedModCount = modCount; 
private boolean okToRemove = false; 


public boolean hasNext( ) 


{ return current != endMarker; } 


public AnyType next( ) 


{ 


} 


if( modCount != expectedModCount ) 

throw new java.util.ConcurrentModificationException( ); 
if( !hasNext( ) ) 

throw new java.util.NoSuchElementException( ); 


AnyType nextItem = current.data; 
current - current.next; 
okToRemove = true; 

return nextItem; 


public void remove( ) 


{ 





if( modCount != expectedModCount ) 

throw new java.util .ConcurrentModificationException( ); 
if( !okToRemove ) 

throw new IllegalStateException( ); 


MyLinkedList.false.remove( current.prev ); 


expectedModCount++; 
okToRemove = false; 


图 3-32 MyLinkedList 类 的 内 部 Iterator 类 


栈 (stack) 是 限制 插入 和 删除 只 能 在 一 个 位 置 上 进行 的 表 , 该 位 置 是 表 的 末端 , 叫 作 栈 的 顶 
(top) 。 对 栈 的 基本 操作 有 push( 进 栈 ) 和 pop( 出 栈 ), 前 者 相当 于 插入 , 后 者 则 是 删除 最 后 插 
人 的 元 素 。 最 后 插入 的 元 素 可 以 通过 使 用 top 例 程 在 执行 pop 之 前 进行 考查 。 对 空 栈 进行 的 
pop B top 一 般 被 认为 是 栈 ADT 中 的 一 个 错误 。 另 一 方面 , 当 运 行 push 时 空间 用 尽 是 一 个 实 
现 限制 , 但 不 是 ADT 错误 。 

栈 有 时 又 叫 作 LIFO( 后 进 先 出 ) 表 。 在 图 3-33 中 描述 的 模型 只 象征 着 push 是 输入 操作 而 
pop 和 top 是 输出 操作 。 普 通 的 清空 栈 的 操作 和 判断 是 否 空 栈 的 测试 都 是 栈 的 操作 指令 系统 
的 一 部 分 , 但 是 , 我 们 对 栈 所 能 够 做 的 , 基本 上 也 就 是 push A pop 操作 。 

图 3-34 表示 在 进行 若干 操作 后 的 一 个 抽象 的 栈 。 一 般 的 模型 是 , 存在 某 个 元 素 位 于 栈 项 ， 
而 该 元 素 是 唯一 的 可 见 元 素 。 
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图 3-33 EEUU. 通过 push 向 栈 输 入 ， 通 过 pop 和 cop 从 栈 中 输出 








top 





图 3-34 EEUU. 只 有 栈 项 元 素 是 可 访问 的 


3.6.2 ” 栈 的 实现 

由 于 栈 是 一 个 表 , 因此 任何 实现 表 的 方法 都 能 实现 栈 。 显 然 , ArrayList fll LinkedList 
都 支持 栈 操作 ; 99% 的 时 间 它 们 都 是 最 合理 的 选择 。 偶 尔 设计 一 种 特殊 目的 的 实现 可 能 会 更 快 
(例如 ,如 果 被 放 到 栈 上 的 项 属于 基本 类 型 ) 。 因 为 栈 操作 是 常数 时 间 操 作 , 所 以 , 除非 在 非常 
独特 的 环境 下 , 这 是 不 可 能 产生 任何 明显 的 改进 的 。 对 于 这 些 特殊 的 时 机 , 我 们 将 给 出 两 个 流 
行 的 实现 方法 , 一 种 方法 使 用 链 式 结构 ,而 男 一 种 方法 则 使 用 数组 ,二 者 均 简 化 了 在 
ArrayList fllLinkedList 中 的 逻辑 , 因此 我 们 不 提供 代码 。 

栈 的 链表 实现 

栈 的 第 一 种 实现 方法 是 使 用 单 链表 。 通 过 在 表 的 顶端 插入 来 实现 push, 通过 删除 表 顶 端 
元 素 实现 pop。top 操作 只 是 考查 表 顶 端 元 素 并 返回 它 的 值 。 有 时 pop 操作 和 top 操作 合 二 
为 一 。 

栈 的 数组 实现 

另 一 种 实现 方法 避免 了 链 而 且 可 能 是 更 流行 的 解决 方案 。 由 于 模仿 ArrayList 的 aaa 操 
VE, 因此 相应 的 实现 方法 非常 简单 。 与 每 个 栈 相关 联 的 操作 是 theArray fll topofStack, 对 
于 空 栈 它 是 -1( 这 就 是 空 栈 初始 化 的 做 法 ) 。 为 将 某 个 元 素 x 推 人 栈 中 , 我 们 使 copofStack 
增 1 然后 置 theArray[topOfStack] =x, 为 了 弹出 栈 元 素 , 我 们 置 返回 值 为 cheArray 
[topOfStack] 然 后 使 topofstack 减 1。 

注意 , 这 些 操作 不 仅 以 常数 时 间 运 行 , 而 且 是 以 非常 快 的 常数 时 间 运 行 。 在 某 些 机 器 上 ， 
若 在 带 有 自 增 和 自 减 寻 址 功能 的 寄存 器 上 操作 , 则 (整数 的 )push 和 pop 都 可 以 写成 一 条 机 器 
乡 令 。 最 现代 化 的 计算 机 将 栈 操作 作为 它 的 指令 系统 的 一 部 分 , 这 个 事实 强化 了 这 样 一 种 观 
念 ， 即 栈 很 可 能 是 在 计算 机 科学 中 在 数组 之 后 的 最 基本 的 数据 结构 。 
3.6.3 应 用 

毫 不 奇怪 , 如 果 我 们 把 操作 限制 在 对 一 个 表 上 进行 , 那么 这 些 操作 会 执行 得 很 快 。 然 而 ， 
令 人 惊奇 的 是 , 这 些 少 量 的 操作 非常 强大 和 重要 。 在 栈 的 许多 应 用 中 , 我 们 给 出 三 个 例子 , 第 
三 个 实例 深刻 说 明 程 序 是 如 何 组 织 的 。 

平衡 符号 

编译 器 检查 程序 的 语法 错误 , 但 是 常常 由 于 缺少 一 个 符号 ( 如 遗漏 一 个 花 括号 或 是 注释 起 
始 符 ) 引 起 编译 器 列 出 上 百 行 的 诊断 ,而 真正 的 错误 并 没有 找 出 。( 幸 运 的 是 , 大 部 分 Java 编译 
器 在 这 一 点 上 是 相当 好 的 。 但 不 是 所 有 的 语言 和 编译 器 都 这 么 可 靠 。) 

在 这 种 情况 下 ， 一 个 有 用 的 工具 就 是 检验 是 否 每 件 事情 都 能 成 对 的 程序 。 于 是 , 每 一 个 右 
花 括号 、 右 方 括号 及 右 圆 括号 必然 对 应 其 相应 的 左 括号 。 序 列 [ ( ) ] 是 合法 的 , 但 [( ] ) 是 错误 


[83 | 


60 第 3 章 





的 。 显 然 , 不 值得 为 此 编写 一 个 大 型 程序 , 事实 上 检验 这 些 事情 是 很 容易 的 。 为 简单 起 见 , 我 
们 仅 就 圆 括 号 、 方 括号 和 花 括号 进行 检验 并 忽略 出 现 的 任何 其 他 字符 。 

这 个 简单 的 算法 用 到 一 个 栈 , 叙述 如 下 : 

做 一 个 空 栈 。 读 入 字符 直到 文件 结尾 。 如 果 字 符 是 一 个 开放 符号 ， 则 将 其 推 入 栈 

中 。 如 果 字 符 是 一 个 封闭 符号 , 则 当 栈 空 时 报错 。 否 则 ,将 栈 元 素 弹 出 。 如 果 弹 出 的 

符号 不 是 对 应 的 开放 符号 ， 则 报错 。 在 文件 结尾 ， 如 果 栈 非 空 则 报错 。 

我 们 应 该 能 够 确信 这 个 算法 是 会 正确 运行 的 。 很 清楚 , 它 是 线性 的 , 事实 上 它 只 需 对 输入 
进行 一 趟 检验 。 因 此 , 它 是 联机 (on-line) 的 , 是 相当 快 的 。 当 报错 时 决定 如 何 处 理 需 要 做 一 些 
附加 的 工作 一 一 例如 判断 可 能 的 原因 。 

FARER 

假设 我 们 有 一 个 便携 式 计算 器 并 想 要 计算 一 趟 外 出 购物 的 花费 。 为 此 , 我 们 将 一 列 数据 相 
加 并 将 结果 乘 以 1.06; 它 是 所 购物 品 的 价格 以 及 附加 的 地 方 销售 税 。 如 果 购 物 各 项 花 销 为 
4.99、5.99 和 6.99, 那么 输入 这 些 数据 的 自然 的 方式 将 是 

4. 99 +5.99 +6. 99 « 1.06 = 
随 着 计算 器 的 不 同 , 这 个 结果 或 者 是 所 要 的 答案 19. 05, 或 者 是 科学 答案 18.39。 最 简单 的 四 功 
能 计算 器 都 将 给 出 第 一 个 答案 , 但 是 许多 先进 的 计算 器 是 知道 乘法 的 优先 级 高 于 加 法 的 。 

另 一 方面 , 有 些 项 是 需要 上 税 的 而 有 些 项 则 不 是 , 因此 , 如果 只 有 第 一 项 和 最 后 一 项 是 要 

上 税 的 , 那么 计算 的 顺序 





4.99 x 1. 06 +5. 99 +6.99*1.06= 
将 在 科学 计算 器 上 给 出 正确 的 答案 (18. 69) 而 在 简单 计算 器 上 给 出 错误 的 答案 (19.37) 。 科 学 
计算 器 一 般 包 含 括 号 , 因此 我 们 总 可 以 通过 加 括号 的 方法 得 到 正确 的 答案 , 但 是 使 用 简单 计算 
器 我 们 需要 记 住 中 间 结 果 。 

该 例 的 典型 计算 顺序 可 以 是 将 4. 99 和 1. 06 相 乘 并 存 为 4 , 然后 将 5. 99 FLA, 相 加 , 再 将 结 
AFA A, ; 我 们 再 将 6. 99 和 1. 06 相 乘 并 将 答案 存 为 4,， 最 后 将 A, 和 4, 相 加 并 将 最 后 结果 放 
入 4i。 我 们 可 以 将 这 种 操作 顺序 书写 如 下 : 

4. 99 1.06 * 5. 99 +6.99 1.06 * + 

XIE MY EG SR (postfix) 2 3 E 35 ( reverse Polish) 记 法 , 其 求 值 过 程 恰好 就 是 上 面 所 描述 
的 过 程 。 计 算 这 个 问题 最 容易 的 方法 是 使 用 一 个 栈 。 当 见 到 一 个 数 时 就 把 它 推 人 栈 中 ; 在 遇 到 
一 个 运算 符 时 该 算 符 就 作用 于 从 该 栈 弹 出 的 两 个 数 ( 符号) 上 , 再 将 所 得 结果 推 人 栈 中 。 例 如 ， 
Jc CRGA 

652348* 434 * 
计算 如 下 : 前 四 个 字符 放 入 栈 中 ; 此 时 栈 变 成 


topOfStack 一 





下 面 读 到 一 个 "+ "号 , 所 以 3 和 2 从 栈 中 弹出 并 且 它 们 的 和 5 被 压 人 栈 中 


topOfStack > | s 


A. BABS 61 





接着 , 8 进 栈 


topOfStack 一 


8 
5 
5 
6 


现在 见 到 一 个 *' 5, 因此 8 RIS 弹出 并 且 5 *8 240 VERG 


topOfStack — 40 


6 |l 





接着 又 见 到 一 个 + "号 , 因此 40 和 5 被 弹出 并 且 5 +40 245 进 栈 


topOfStack ”一 45 
6 


topOfStack ^ 3 
45 
6 


然后 + "使 得 3 和 45 从 栈 中 弹出 并 将 45 +3 248 压 人 栈 中 


topOfStack 一 
6 


最 后 ， 遇 到 一 个 * “号 ， 从 栈 中 弹出 48 和 6; 将 结果 6* 48 2288 压 进 栈 中 


计算 一 个 后 缀 表达 式 花 费 的 时 间 是 ON), 因为 对 输入 中 的 每 个 元 素 的 处 理 都 是 由 一 些 栈 
操作 组 成 从 而 花费 常数 的 时 间 。 该 算法 的 计算 是 非常 简单 的 。 注 意 ， 当 一 个 表达 式 以 后 缀 记号 
给 出 时 , 没有 必要 知道 任何 优先 的 规则 , 这 是 一 个 明显 的 优点 。 

UE Et Es 

栈 不 仅 可 以 用 来 计算 后 级 表达 式 的 值 , 而 且 还 可 以 用 栈 将 一 个 标准 形式 的 表达 式 ( 或 叫 作 
中 缀 表达 式 (infix) ) 转换 成 后 缀 式 。 我 们 通过 只 允许 操作 + ，* ，(,), 并 坚持 普通 的 优先 级 法 
则 而 将 一 般 的 问题 浓缩 成 小 规模 的 问题 。 此 外 , 还 要 进一步 假设 表达 式 是 合法 的 。 假 设 将 中 绥 

atb*c+(d*e+f)*g 
转换 成 后 组 表达 式 。 正 确 的 答案 是 abc* +de*f+g* +, 

当 读 到 一 个 操作 数 的 时 候 , 立即 把 它 放 到 输出 中 。 操 作 符 不 立即 输出 ， 从 而 必须 先 存 在 某 


现在 将 3 EARP 
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个 地 方 。 正 确 的 做 法 是 将 已 经 见 到 过 但 尚未 放 到 输出 中 的 操作 符 推 人 栈 中 。 当 遇 到 左 圆 括号 时 


我 们 也 要 将 其 推 人 栈 中 。 计 算 从 一 个 空 栈 开始 。 





如 果 见 到 一 个 右 括号 , 那么 就 将 栈 元 素 弹 出 , 将 弹出 的 符号 写 出 直至 遇 到 一 个 (对 应 的 ) 左 
括号 , 但 是 这 个 左 括号 只 被 弹出 并 不 输出 。 

如 果 我 们 见 到 任何 其 他 的 符号 ( + ，* ，() , 那么 我 们 从 栈 中 弹出 栈 元 素 直到 发 现 优先 级 
更 低 的 元 素 为止 。 有 一 个 例外 : 除非 是 在 处 理 一 个 ) 的 时 候 , 否则 我 们 决 不 从 栈 中 移 走 (。 对 于 
这 种 操作 ，+ 的 优先 级 最 低 , 而 ( 的 优先 级 最 高 。 当 从 栈 弹 出 元 素 的 工作 完成 后 , 我 们 再 将 操作 
符 压 人 栈 中 。 

最 后 , 如 果 读 到 输入 的 末尾 , 我 们 将 栈 元 素 弹 出 直到 该 栈 变 成 空 栈 , 将 符号 写 到 输出 中 。 

这 个 算法 的 想法 是 , 当 看 到 一 个 操作 符 的 时 候 , 把 它 放 到 栈 中 。 栈 代表 挂 起 的 操作 符 。 然 
m, 栈 中 有 些 具有 高 优先 级 的 操作 符 现在 知道 当 它 们 不 再 被 挂 起 时 要 完成 使 用 , 应 该 被 弹出 。 
这 样 , 在 把 当前 操作 符 放 人 栈 中 之 前 , 那些 在 栈 中 并 在 当前 操作 符 之 前 要 完成 使 用 的 操作 符 被 
弹出 。 详 细 的 解释 见 下 表 : 














在 处 理 第 3 个 操作 符 时 的 栈 动作 
- -完成 ，+ BERG 
+ 没有 操作 符 完成 操作 ，* 进 栈 
-* * 完成 , / 进 栈 
-* * 和 一 完成 ，+ 进 栈 





圆 括号 增加 了 额外 的 复杂 因素 。 当 左 括号 是 一 个 输入 符号 时 我 们 可 以 把 它 看 成 是 一 个 高 优 
先 级 的 操作 符 ( 使 得 挂 起 的 操作 符 仍 是 挂 起 的 ), 而 当 它 在 栈 中 时 把 它 看 成 是 低 优先 级 的 操作 符 
(从 而 不 会 被 操作 符 意外 地 删除 ) 。 右 括号 被 处 理 成 特殊 的 情况 。 

为 了 理解 这 种 算法 的 运行 机 制 , 我 们 将 把 上 面 长 的 中 级 表达 式 转换 成 后 缀 形式 。 首 先 , 符 
号 a 被 读 入 , 于 是 它 被 传 向 输出 。 然 后 ”+ “被 读 和 并 被 放 人 栈 中 。 接 下 来 b 读 人 并 流向 输出 。 
这 一 时 刻 的 状态 如 下 : 


Stack Output 


接着 * 号 被 读 人 。 操 作 符 栈 的 栈 顶 元 素 比 * 的 优先 级 低 , 故 没有 输出 且 * 进 栈 。 接 着 ，e 被 读 
入 并 输出 。 至 此 , 我 们 有 


* 


abc 

Stack Output 
后 面 的 符号 是 一 个 + 号 。 检 查 一 下 栈 我 们 发 现 , 需要 将 * 从 栈 弹 出 并 把 它 放 到 输出 中 ; 弹出 栈 
中 剩 下 的 + 号 , 该 算 符 不 比 刚刚 遇 到 的 + 号 优先 级 低 而 是 有 相同 的 优先 级 ; 然后 , 将 刚刚 遇 到 
的 + 号 压 入 栈 中 


: 
Stack Output 


下 一 个 被 读 到 的 符号 是 一 个 ( ,由 于 有 最 高 的 优先 级 , 因此 它 被 放 进 栈 中 。 然 后 , d RAH 
输出 
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abc*+d | 
Stack Output 


继续 进行 我 们 又 读 到 一 个 * 。 由 于 除非 正在 处 理 闭 括号 否则 开 括 号 不 会 从 栈 中 弹出 , 因此 没 
有 输出 。 下 一 个 是 e, 它 被 读 入 并 输出 


* 


LC 
Stack Output 


再 往 后 读 到 的 符号 是 + 。 我 们 将 * 弹出 并 输出 , 然后 将 STRAP, RDU, RIEA 
输出 


L1] 
[7 OCO 


Stack Output 


现在 , 我 们 读 到 一 个 ) , 因此 将 栈 元 素 直 到 ( 弹出, 我 们 将 一 个 + 号 输出 








F abet td e* f + 
Stack Output 





下 面 又 读 到 一 个 * ; 该 算 符 被 压 和 人 栈 中 。 然 后 , g 被 读 入 并 输出 


* 


abc**de*f*g 
Stack Output 


现在 输入 为 空 , 因此 我 们 将 栈 中 的 符号 全 部 弹出 并 输出 ,直到 栈 变 成 空 栈 





[abc*+de*f+g*+| 
Stack Output 

与 前 面相 同 , 这 种 转换 只 需要 O(V) 时 间 并 经 过 一 趟 输入 后 工作 完成 。 可 以 通过 指定 减法 
和 加 法 有 相同 的 优先 级 以 及 乘法 和 除法 有 相同 的 优先 级 而 将 减法 和 除法 添加 到 指令 集中 去 。 需 
要 注意 的 是 ， 表 达 式 a-b -e 应 转换 成 ah -e - 而 不 是 abe--。 我 们 的 算法 进行 了 正确 的 操 
作 , 因为 这 些 操作 符 是 从 左 到 右 结合 的 。 一 般 情况 未 必 如 此 ,比如 下 面 的 表达 式 就 是 从 右 到 左 
结合 的 : 2" =2* =256, 而 不 是 4 =64。 我 们 将 把 取 宕 运算 添加 到 操作 符 指令 集中 的 问题 留 作 
练习 。 

方法 调用 

检测 平衡 符号 的 算法 提出 一 种 在 编译 的 过 程 语 言 和 面向 对 象 语言 中 实现 方法 调用 的 方式 9 。 
这 里 的 问题 是 ， 当 调用 一 个 新 方法 时 , 主 调 例 程 的 所 有 局 部 变量 需要 由 系统 存储 起 来 , 否则 被 
调用 的 新 方法 将 会 重 写 由 主 调 例 程 的 变量 所 使 用 的 内 存 。 不 仅 如 此 , 该 主 调 例 程 的 当前 位 置 也 
必须 要 存储 ,以 便 在 新 方法 运行 完 后 知道 向 哪里 转移 。 这 些 变量 一 般 由 编译 器 指派 给 机 器 的 寄 
存 器 , 但 存在 某 些 冲 突 (通常 所 有 的 方法 都 是 获取 指定 给 1 号 寄存 器 的 某 些 变量 ) , 特别 是 涉及 
递归 的 时 候 。 该 问题 类 似 于 平衡 符号 的 原因 在 于 , 方法 调用 和 方法 返回 基本 上 类 似 于 开 插 号 和 








O 由 于 Java 是 解释 而 不 是 编译 执行 的 , 因此 本 节 有 些 细节 不 可 用 到 Java E, 但 是 一 般 的 概念 仍然 可 以 在 Java TTE 
多 其 他 语言 上 使 用 ， 
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闭 括 号 , 二 者 相同 的 想法 应 该 都 是 行 得 通 的 。 

当 存 在 方法 调用 的 时 候 , 需要 存储 的 所 有 重要 信息 , 诸如 寄存 器 的 值 (对 应 变量 的 名 字 ) 和 
返回 地 址 ( 它 可 从 程序 计数 器 得 到 , 一 般 情 况 是 在 一 个 寄存 器 中 ) 等 , 都 要 以 抽象 的 方式 存在 
“一 张 纸 上 ”并 被 置 于 一 个 堆 (pile) 的 顶部 。 然 后 控制 转移 到 新 方法 , 该 方法 自由 地 用 它 的 一 些 
值 代替 这 些 寄存 器 。 如 果 它 又 进行 其 他 的 方法 调用 , 那么 它 也 遵循 相同 的 过 程 。 当 该 方法 要 返 
回 时 , 它 查看 堆 顶 部 的 那 张 “ 纸 ”并 复原 所 有 的 寄存 器 , 然后 进行 返回 转移 。 

显然 , 所 有 全 部 工作 均 可 由 一 个 栈 来 完成 ,而 这 正 是 在 实现 递归 的 每 一 种 程序 设计 语言 中 
实际 发 生 的 事实 。 所 存储 的 信息 或 称 为 活动 记录 ( activation record) ,或 叫 作 栈 帧 ( stack frame ) 。 
在 典型 情况 下 , 需要 做 些微 调整 : 当前 环境 是 由 栈 顶 描述 的 。 因 此 , 一 条 返回 语句 就 可 给 出 前 
面 的 环境 (不 用 复制 )。 在 实际 计算 机 中 的 栈 常常 是 从 内 存 分 区 的 高 端 向 下 增长 , 而 在 许多 非 
Java 系统 中 是 不 检测 溢出 的 。 由 于 有 太 多 的 同时 在 运行 着 的 方法 , 因此 栈 空间 用 尽 的 情况 总 是 
可 能 发 生 的 。 显 而 易 见 , 栈 空间 用 尽 常 是 致命 的 错误 。 

在 不 进行 栈 溢出 检测 的 语言 和 系统 中 , 程序 将 会 崩溃 而 没有 明显 的 说 明 ; 而 在 Java 中 则 抛 
出 一 个 异常 。 

在 正常 情况 下 我 们 不 应 该 越 出 栈 空间 , 发 生 这 种 情况 通常 是 由 失控 递归 (忽视 基准 情形 ) 的 
指向 引起 。 另 一 方面 , 某 些 完全 合法 并 且 表面 上 无 问题 的 程序 也 可 以 越 出 栈 空 间 。 图 3-35 中 的 
例 程 打印 一 个 集合 , 该 例 程 完全 合法 , 实际 上 是 正确 的 。 它 正常 地 处 理 空 集合 的 基准 情形 , 并 
且 递 归 也 没有 问题 。 可 以 证 明 这 个 程序 是 正确 的 。 但 是 不 幸 的 是 , 如 果 这 个 集合 含有 20 000 个 
元 素 要 打印 , 那么 就 要 有 表示 第 10 TREH AY 20 000 个 活动 记录 的 栈 。 一 般 这 些 活动 记录 
由 于 它们 包含 了 全 部 信息 而 特别 庞大 , 因此 这 个 程序 很 可 能 要 越 出 栈 空间 。( 如 果 20 000 个 元 
素 还 不 足以 使 程序 崩溃 , 那么 可 用 更 大 的 元 素 个 数 代替 它 。) 


/xx 
* Print container from itr. 
x/ 
public static «AnyType» void printList( Iterator<AnyType> itr ) 


if( litr.hasNext( ) ) 
return; 


System.out.println( itr.next( ) ); 
printList( itr ); 
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图 3-35 递归 的 不 当 使 用 : 打印 一 个 链表 


这 个 程序 是 称 为 尾 递 归 (tail_reeursion ) 的 使 用 极端 不 当 的 例子 。 尾 递归 涉及 在 最 后 一 行 
的 递归 调用 。 尾 递归 可 以 通过 将 代码 放 到 一 个 while 循环 中 并 用 每 个 方法 参数 的 一 次 赋值 
代替 递归 调用 而 被 手工 消除 。 它 模拟 了 递归 调用 , 因为 它 什 么 也 不 需要 存储 ; 在 递归 调用 结 
RZE, 实际 上 没有 必要 知道 存储 的 值 。 因 此 , 我 们 就 可 以 带 着 在 一 次 递归 调用 中 已 经 用 过 
的 那些 值 转移 到 方法 的 顶部 。 图 3-36 中 的 方法 显示 手工 改进 后 的 程序 。 尾 递归 的 去 除 是 如 
此 的 简单 ， 以 至 于 某 些 编译 器 能 够 自动 完成 。 但 是 即使 如 此 , 最 好 还 是 不 要 让 你 的 程序 带 着 
尾 递归 。 

递归 总 能 够 被 彻底 去 除 ( 编译 器 是 在 转变 成 汇编 语言 时 完成 递归 去 除 的 ) , 但 是 这 么 做 是 相 
当 宛 长 乏味 的 。 一 般 方法 是 要 求 使 用 一 个 栈 , 而 且 仅 当 你 能 够 把 最 低 限 度 的 最 小 值 放 到 栈 上 时 
这 个 方法 才 值 得 一 用 。 我 们 将 不 对 此 做 进一步 的 详细 讨论 , 只 是 指出 , 虽然 非 弟 归程 序 一 般 说 
来 确实 比 等 价 的 递归 程序 要 快 , 但 是 速度 优势 的 代价 却 是 由 于 去 除 递归 而 使 得 程序 清晰 性 受到 
了 影响 。 
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/** 


* Print container from itr. 


* 
public static «AnyType» void printList( Iterator<AnyType> itr ) 
{ 


while( true ) 


{ 
if( !itr.hasNext( ) ) 
return; 


System.out.println( itr.next( ) ); 
} | 一 
} 
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图 3-36 不 用 递归 而 打印 一 个 表 : 编译 器 可 以 做 到 


3.7 队列 ADT 

像 栈 一 样 , PAF (queue) 也 是 表 。 然 而 , 使 用 队列 时 插入 在 一 端 进 行 而 删除 则 在 另 一 端 
进行 。 
3.7.1 队列 模型 

队列 的 基本 操作 是 enqueue(APA), 它 是 在 表 "Tm "T 
dequeue( HBA), 它 是 删除 (并 返回 ) 在 表 的 开头 
( 叫 作 队 头 (front) ) 的 元 素 。 图 3-37 显示 一 个 队列 的 图 3-37 ”队列 模型 
抽象 模型 。 


3.7.2 队列 的 数组 实现 

如 同 栈 的 情形 一 样 , 对 于 队列 而 言 任 何 的 表 的 实现 都 是 合法 的 。 像 栈 一 样 ,对 于 每 一 种 操 
作 , 链表 实现 和 数组 实现 都 给 出 快速 的 0(1) 运 行 时 间 。 队 列 的 链表 实现 是 简单 直接 的 , 我 们 留 
作 练习 。 下 面 讨论 队列 的 数组 实现 。 

对 于 每 一 个 队列 数据 结构 ; 我们 保留 一 个 数组 thearray 以 及 位 置 front 和 back, 它们 
代表 队列 的 两 端 。 我 们 还 要 记录 实际 存在 于 队列 中 的 元 素 的 个 数 currentsize。 下 图 表示 处 
于 某 个 中 间 状 态 的 一 个 队列 。 





操作 应 该 是 清楚 的 。 为 使 一 个 元 素 x 入 队 ( 即 执行 enqueue), 我 们 让 currentSize 和 
back 增 1, 然后 置 theArray[ back] =x, 若 使 元 素 dequeue (出 队 ), 我 们 置 返回 值 为 
theArray[ front], H currentSize 减 1, 然后 使 front 增 1。 也 可 以 有 其 他 的 方法 (将 在 
后 面 讨论 ) 。 现 在 论述 错误 检测 。 

上 述 实现 存在 一 个 潜在 的 问题 。 经 过 10 次 enqueue 后 队列 似乎 是 满 了 , 因为 back 现在 
是 数组 的 最 后 一 个 下 标 , 而 下 一 次 再 enqueue 就 会 是 一 个 不 存在 的 位 置 。 然 而 , 队列 中 也 许 只 
存在 几 个 元 素 , 因为 若干 元 素 可 能 已 经 出 队 了 。 像 栈 一 样 , 即使 在 有 许多 操作 的 情况 下 队列 也 
常常 不 是 很 大 。 

简单 的 解决 方法 是 , 只 要 front 或 back 到 达 数 组 的 尾 端 , 它 就 又 绕 回 到 开头 。 下 面 诸 图 
显示 在 某 些 操作 期 间 的 队列 情况 。 这 叫 作 循环 数组 (circular array) 实现 。 
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实现 回 绕 所 需要 的 附加 代码 是 极 小 的 (不 过 它 可 能 使 得 运行 时 间 加 倍 ) 。 如 果 front 或 
back 增 1 导致 超越 了 数组 , 那么 其 值 就 要 重 置 到 数组 的 第 一 个 位 置 。 
初始 状态 
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有 些 程序 设计 员 使 用 不 同 的 方法 表示 队列 的 队 头 和 队 尾 。 例 如 ,有 人 不 使 用 一 项 来 记录 大 
小 , 因为 他 们 依赖 于 当 队 列 为 空 (back = front -1) 时 的 基准 情形 。 队 列 的 大 小 通过 比较 
back 和 front 隐 式 地 算出 。 这 是 一 种 非常 隐秘 的 方法 ,因为 存在 某 些 特 殊 的 情形 , 因此 , 如 
果 你 想 修改 用 这 种 方法 编写 的 程序 , 那 就 要 特别 地 小 心 。 如 果 currentSize 不 作为 明确 的 数 
据 域 被 保留 , 那么 当 存 在 theArray . length-1 个 元 素 时 队列 就 满 了 , 因为 只 有 thearray. 

[94] length 个 不 同 的 大 小 可 被 区 分 , 而 0 是 其 中 的 一 个 。 可 以 采用 任意 一 种 你 喜欢 的 风格 , 但 要 
确保 你 的 所 有 例 程 都 是 一 致 的 。 由 于 实现 方法 有 多 种 选择 , 因此 如 果 不 使 用 currentsize W, 
那 就 很 可 能 有 必要 进行 一 些 注释 , 否则 会 在 一 个 程序 中 使 用 两 种 选择 。 

在 保证 enqueue 的 次 数 不 会 大 于 队列 容量 的 应 用 中 , 使 用 回 绕 是 没有 必要 的 。 像 栈 一 样 ， 
除非 主 调 例 程 肯 定 队列 非 空 , 否则 dequeue 很 少 执行 。 因 此 对 这 种 操作 ， 只 要 不 是 关键 的 代 
码 , 错误 检测 常常 被 跳 过 。 一 般 说 来 这 并 不 是 无 可 非议 的 , 因为 这 样 可 能 得 到 的 时 间 节 省 量 是 
极 小 的 。 

3.7.3 队列 的 应 用 
有 许多 使 用 队列 给 出 高 效 运行 时 间 的 算法 。 它 们 当中 有 些 可 以 在 图 论 中 找到 , 我 们 将 在 第 
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9 章 讨论 它们 。 这 里 , 先 给 出 某 些 应 用 队列 的 简单 例子 。 

当 作业 送 交 给 一 台 行 式 打印 机 的 时 候 , 它们 就 以 到 达 的 顺序 被 排列 起 来 。 因 此 , 被 送 往 行 
式 打印 机 的 作业 基本 上 被 放 到 一 个 队列 中 。 © 

事实 上 每 一 个 实际 生活 中 的 排队 都 (应 该 ) 是 一 个 队列 。 例 如 , 在 一 些 售票 口 排列 的 队伍 都 
是 队列 ， 因 为 服务 的 顺序 是 先 到 先 买 票 。 

另 一 个 例子 是 关于 计算 机 网 络 的 。 有 多 种 PC 机 的 网 络 设置 ,其 中 磁盘 是 放 在 一 台 叫 作文 
件 服务 器 (file server) 的 机 器 上 的 。 使 用 其 他 计算 机 的 用 户 是 按照 先 到 先 使 用 的 原则 访问 文件 
的 , 因此 其 数据 结构 是 一 个 队列 。 

进一步 的 例子 如 下 : 

。 当 所 有 的 接线 员 忙 不 开 的 时 候 , 对 大 公司 的 呼叫 一 般 都 被 放 到 二 不 队列 中 。 

e 在 大 型 的 大 学 里 ， 如果 所 有 的 终端 都 被 占用 , 由 于 资源 有 限 , 学 生 们 必须 在 一 个 等 待 表 

上 签字 登记 。 在 终端 上 停留 时 间 最 长 的 学 生 将 首先 被 强制 离开 ， 而 等 待 时 间 最 长 的 学 生 
则 将 是 下 一 个 被 允许 使 用 终端 的 用 户 。 

称 为 排队 论 (queueing theory) 的 整个 数学 分 支 处 理 用 概率 的 方法 计算 用 户 预计 要 排队 等 竺 
多 长 时 间 才 会 得 到 服务 、 等 待 服务 的 队伍 能 够 排 多 长 以 及 其 他 一 些 诸如 此 类 的 问题 。 问 题 的 答 
案 依赖 于 用 户 到 达 排队 的 经 常 程度 以 及 -一旦 用 户 得 到 服务 时 处 理 服务 花费 的 时 间 。 这 两 个 参数 
作为 概率 分 布 函数 给 出 。 在 一 些 简单 的 情况 下 , 答案 可 以 解析 地 算出 。 一 种 简单 情况 的 例子 是 
一 条 电话 线 有 一 个 接线 员 。 如 果 接线 员 忙 , 打 来 的 电话 就 被 放 到 一 个 等 待 队列 中 (这 还 与 某 个 
容许 的 最 大 限度 有 关 ) 。 这 个 问题 在 商业 上 很 重要 , 因为 研究 表明 ,人 们 会 很 快 挂 上 电话 。 

如 果 我 们 有 上 个 接线 员 ,那么 这 个 问题 解决 起 来 要 困难 得 多 。 解 析 地 求解 起 来 困难 的 问题 
往往 使 用 模拟 的 方法 进行 。 此 时 ,我 们 需要 使 用 一 个 队列 来 进行 模拟 。 如 果 上 很 大 , WARN 
还 需要 其 他 一 些 数据 结构 来 使 得 模拟 更 有 效 地 进行 。 在 第 6 章 将 会 看 到 模拟 是 如 何 进行 的 。 那 
时 我 们 将 对 上 的 若干 值 进行 模拟 并 选择 能 够 给 出 合理 等 待 时 间 的 最 小 的 

正如 栈 一 样 ,队列 还 有 其 他 丰富 的 用 途 , 这 样 一 种 简单 的 数据 结构 竟然 能 够 如 此 重要 , X 
在 令 人 惊奇 。 


小 结 


本 章 描 述 了 一 些 ADT 的 概念 , 并 且 利用 三 种 最 常见 的 抽象 数据 类 型 (ADT) 阐述 了 这 种 概 
念 。 主 要 目的 就 是 将 抽象 数据 类 型 的 具体 实现 与 它们 的 功能 分 开 。 程 序 必须 知道 操作 都 做 些 什 
么 , 但 是 如 果 不 知道 如 何 去 做 那 就 更 好 。 

表 、 栈 和 队列 或 许 在 全 部 计算 机 科学 中 是 三 个 基本 的 数据 结构 , 大 量 的 例子 证 明了 它们 广 
泛 的 用 途 。 特 别 地 , 我 们 看 到 栈 是 如 何 用 来 记录 过 程 和 方法 调用 的 , 以 及 递归 实际 上 是 如 何 实 
现 的 。 这 对 于 我 们 的 理解 非常 重要 ,其 原因 不 只 因为 它 使 得 过 程 语言 成 为 可 能 , 而 且 还 因为 知 
道 递 归 的 实现 从 而 消除 了 围绕 其 使 用 的 大 量 谜 团 。 虽 然 递 归 非 常 强大 , 但 是 它 并 不 是 完全 随意 
的 操作 ; 递归 的 误 用 和 乱用 可 能 导致 程序 崩溃 。 


练习 


3.1 ”给 定 一 个 表 工 和 另 一 个 表 P, 它们 包含 以 升序 排列 的 整数 。 操 作 printLots(L，P) 将 打印 工 中 
那些 由 P 所 指定 的 位 置 上 的 元 素 。 例 如 , 如 果 P=1, 3, 4, 6, 那么 , 工 中 位 于 第 1 、 第 3、 第 4 和 
第 6 个 位 置 上 的 元 素 被 打印 出 来 。 写 出 过 程 printLots (L，P)。 只 可 使 用 publie 型 的 
Collections API 容器 操作 。 该 过 程 的 运行 时 间 是 多 少 ? 

3.2 ”通过 只 调整 链 ( 而 不 是 数据 ) 来 交换 两 个 相 邻 的 元 素 , 使 用 





O 我 们 说 基本 上 是 因为 作业 可 以 被 取消 。 这 等 于 从 队列 的 中 间 进 行 一 次 删除 , 它 违 反 了 队列 的 严格 定义 。 
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a. HER, 

b. 双 链 表 。 

3.3 ”实现 MyLinkedList 的 contains 例 程 。 

3.4 ”给 定 两 个 已 排序 的 表 L 和 ZL,， 只 使 用 基本 的 表 操 作 编 写 计 算 L OL, 的 过 程 。 

3.5 ”给 定 两 个 已 排序 的 表 L 和 三 ， 只 使 用 基本 的 表 操 作 编写 计算 L, UL, 的 过 程 。 

3.6 Josephus 问题 (Josephus problem) 是 下 面 的 游戏 : N 个 人 编号 从 1 到 NN, 围 坐 成 一 个 圆圈 。 从 1 号 
开始 传递 一 个 热土 豆 。 经 过 M 次 传递 后 拿 着 热土 豆 的 人 被 清除 离 座 , 围 坐 的 圆圈 缩 紧 , 由 坐 在 被 
清除 的 人 后 面 的 人 拿 起 热土 豆 继续 进行 游戏 。 最 后 剩 下 的 人 取胜 。 因 此 , VR M =0 AN =S, 则 
游戏 人 依 序 被 清除 , 5 号 游戏 人 获胜 。 如 果 M 导 =1 和 N=5, 那么 被 清除 的 人 的 顺序 是 2，4，1，5。 
a. 编写 一 个 程序 解决 M 和 N 在 一 般 值 下 的 Josephus 问题 , 应 使 程序 尽 可 能 地 高 效率 , 要 确保 能 

够 清除 各 个 单元 。 
b. 你 的 程序 的 运行 时 间 是 多 少 ? 

3.7 “下 列 程序 的 运行 时 间 是 多 少 ? 
public static List<Integer> makeList( int N ) 

{ 
ArrayList<Integer> Ist = new ArrayList<>( ); 
for( int i = 0; i <N; i++) 
{ 
Ist.add( i ); 
Ist.trimToSize( ); 
} 
} 

3.8 “下列 例 程 删除 作为 参数 被 传递 的 表 的 前 半 部 分 : 

public static void removeFirstHalf( List<?> Ist ) 
{ 

int theSize = Ist.size( ) / 2; 

for( int i = 0; i < theSize; i++ ) 

lst.remove( 0 ); 

} 
a. 为 什么 在 进入 for 循环 前 存储 theSize? 
b. 如果 1st 是 一 个 ArrayList, removeFirstHalf 的 运行 时 间 是 多 少 ? 
c. Ws 1st 是 一 个 LinkedList, removeFirstHalf 的 运行 时 间 是 多 少 ? 
d. 对 于 这 两 种 类 型 的 List 使 用 迭代 器 都 能 使 removeFirstHalf 更 快 吗 ? 

3.9 “提供 对 MyArrayList 类 的 addAll 方法 的 实现 。 方 法 addall 将 由 items 给 定 的 特定 集合 的 
所 有 项 添加 到 MyArrayList 的 末端 。 再 提供 上 述 实现 的 运行 时 间 。 你 使 用 的 方法 声明 与 Java 
Collections API 中 的 略 有 不 同 , 其 形式 如 下 : 
public void addA11( Iterable<? extends AnyType> items ) 

3.10 ”提供 对 MyLinkedList 类 的 removeAll 方法 的 实现 。 方 法 removeall 将 由 items 给 定 的 特 
定 集合 的 所 有 项 从 MyLinkedrist 中 删除 。 再 提供 上 述 实现 的 运行 时 间 。 你 使 用 的 方法 声明 与 
Java Collections API 中 的 略 有 不 同 , 其 形式 如 下 : 
public void removeAll( Iterable<? extends AnyType> items ) 

3.11 假设 单 链 表 使 用 一 个 头 节点 实现 , 但 无 尾 节点 , 并 假设 它 只 保留 对 该 头 节点 的 引用 。 编 写 一 个 
类 , 包含 


a. 返回 链表 大 小 的 方法 。 
b. 打印 链表 的 方法 。 
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c. 测试 值 x 是否 含 于 链表 的 方法 。 

d. 如 果 值 x 尚未 含 于 链表 , 添加 值 x 到 该 链表 的 方法 。 

e. WRIA x 含 于 链表 , 将 x 从 该 链表 中 删除 的 方法 。 

保持 单 链表 以 排序 的 顺序 重复 练习 3.11, 

添加 ListIterator 对 MyArrayList 类 的 支持 。java. util 中 的 ListIterator 接口 比 
3.3.5 节 所 述 含 有 更 多 的 方法 。 ER, 你 要 编写 一 个 listIterator 方法 返回 新 构造 的 
ListIterator, 并 且 还 要 注意 现存 的 迭代 器 方法 可 以 返回 一 个 新 构造 的 ListIterator, 3X 
FE, 你 将 改变 ArrayListIterator, 使 得 它 实 现 ListIterator 而 不 是 Iterator, 对 于 
3.3.5 节 中 未 列 出 的 那些 方法 抛 出 UnsupportedoperationException 异常 。 

如 练习 3. 13 所 述 , 添加 List Iterator 对 MyLinkedList 类 的 支持 。 

将 splice 操作 添加 到 LinkedList 类 中 。 该 方法 的 声明 


public void splice(Iterator<T> itr, MyLinkedList<? extends T> Ist ) 


将 所 有 的 项 从 1st 中 删除 (使 lst 为 空 ), 把 它们 放 到 MyLinkedList this 中 的 itr 之 前 , 而 
lst Al this 必须 是 不 同 的 表 。 你 的 程序 必须 以 常数 时 间 运 行 。 
提供 ListIterator 的 另 一 种 方式 是 提供 带 有 声明 


Iterator<AnyType> reverseIterator( ) 


的 表 , 它 返回 一 个 Iterator, 并 被 初始 化 至 最 后 一 项 , 其 中 next 和 hasNext 被 实现 成 与 迭代 
器 向 表 的 前 端 ( 而 不 是 向 后 ) 推进 一 致 。 然 后 , 你 可 以 通过 使 用 程序 
Iterator<AnyType> ritr = L.reverseIterator( ); 
while( ritr.hasNext( ) ) 
System.out .println( ritr.next( ) ); 


反 向 打印 MyArrayList L。 用 这 种 思路 实现 ArrayListReverseIterator #, it 
reverseIterator 返回 一 个 新 构造 的 ArrayListReverseIterator。 
修改 MyArrayList A, 通过 使 用 在 3.5 节 对 MyLinkedList 所 看 到 的 那些 技巧 以 提供 严格 的 
迭代 器 检测 。 
对 MyLinkedList 类 , 通过 分 别 调用 私有 的 -aad、remove、getNode 例 程 实现 addFirst, 
addLast, removeFirst, removeLast, getFirst Ml getLast 等 方法 。 
不 用 头 节点 和 尾 节点 重 写 MyLinkedList 类 , 并 描述 该 类 和 3. 5 节 所 提供 的 类 之 间 的 区 别 。 
不 同 于 我 们 已 经 给 出 的 删除 方法 , 男 一 种 是 使 用 懒 情 删除 (1azy deletion) 的 删除 方法 。 要 删除 一 个 
元 素 , 我 们 只 是 标记 上 该 元 素 被 删除 (使 用 一 个 附加 的 位 (bit) 域 )。 表 中 被 删除 和 非 被 删除 元 素 
的 个 数 作为 数据 结构 的 一 部 分 被 保留 。 如 果 被 删除 元 素 和 非 被 删除 元 素 一 样 多 , 则 遍历 整个 表 ， 
对 所 有 被 标记 的 节点 执行 标准 的 删除 算法 。 
a. 列 出 懒惰 删除 的 优点 和 缺点 。 
b. 编写 使 用 懒惰 删除 实现 标准 链表 操作 的 相应 例 程 。 
用 下 列 语言 编写 检测 平衡 符号 的 程序 : 
a. Pascal(begin/end, (), [], 11) 
b. Java(/* */, OQ. [], 1D 

'e. 解释 如 何 打印 出 一 个 很 可 能 反映 可 能 原因 的 错误 信息 。 
编写 一 个 程序 计算 后 级 表达 式 的 值 。 
a 写 出 一 个 程序 , 将 包含 ( ,) ，+ ，- ，* 和 /等 符号 的 中 缀 表达 式 转换 成 后 缀 表达 式 。 
b. 将 取 徊 运算 符 添加 到 指令 系统 中 。 
c. 编写 一 个 程序 将 后 级 表达 式 转换 成 中 缀 表达 式 。 
编写 只 用 一 个 数组 而 实现 两 个 栈 的 例 程 。 这 些 例 程 不 应 该 声明 溢出 , 除非 数组 中 的 每 个 单元 都 被 
使 用 。 

“a. 提出 一 种 数据 结构 支持 栈 push 和 pop 操作 以 及 第 三 种 操作 £inaMin, 它 返 回 该 数据 结构 中 

的 最 小 元 素 。 所 有 操作 均 以 0(1) 最 坏 情形 时 间 运 行 。 


70 


*3. 26 


3.27 
3.28 


3,3] 
3.32 
3.33 
3.34 


3. 35 


3. 36 


3.37 


RIF 





"b. 证 明 , 如 果 我 们 添加 找 出 并 删除 最 小 元 素 的 第 4 种 操作 deleteMin, 那么 至 少 有 一 种 操作 必 


然 花费 Q(logN) 时 间 。( 本 题 需要 阅读 第 7 章 ) 

指出 如 何 用 一 个 数组 实现 三 个 栈 结构 。 

1E 2.4 节 中 用 于 计算 斐 波 那 契 数 的 递归 例 程 如 果 对 =50 运行 , 栈 空间 有 可 能 用 完 吗 ? 为 什么 ? 

双 端 队列 (deque) 是 由 一 列 项 组 成 的 数据 结构 ,对 该 数据 结构 可 以 进行 下 列 操作 : 

push(x): 将 项 x 插入 到 双 端 队列 的 前 端 。 

pop( ) : 从 双 端 队列 中 删除 前 端 项 并 将 其 返回 。 

inject(x): 将 项 x 插入 到 双 端 队列 的 尾 端 。 

eject(): 从 双 端 队列 中 删除 尾 端 项 并 将 其 返回 。 

编写 支持 双 端 队列 的 例 程 ,其 中 每 种 操作 均 花 费 0(1) 时 间 。 

编写 以 倒序 打印 双 链 表 的 算法 , 只 使 用 常数 的 附加 空间 。 本 题 意味 着 , 不 能 使 用 递归 和 但 可 以 假设 

该 算法 是 一 个 表 成 员 函 数 。 | 

a. 写 出 自 调整 表 ( self-adjusting list) 的 数组 实现 。 在 自 调整 表 中 ， 所 有 的 插入 都 在 前 端 进行 。 自 调 
整 表 添 加 一 个 find 操作 ， 当 一 个 元 素 被 find 访问 时 , 它 就 被 移 到 表 的 前 端 而 并 不 改变 其 余 
的 项 的 相对 顺序 。 

b. 写 出 自 调整 表 的 链表 实现 。 


“c， 设 每 个 元 素 都 有 其 被 访问 的 固定 的 概率 p;。 证 明 那 些 具 有 最 高 访问 概率 的 元 素 都 靠近 表 的 


前 端 。 
使 用 单 链表 高 效 实现 栈 类 ， 不 用 关节 点 和 尾 节 ， Kio 
使 用 单 链表 高 效 实现 队列 类 , 不 用 头 节点 和 尾 节点 。 
使 用 循环 数组 高 效 实现 队列 类 。 
如 果 从 某 个 节点 p 开始 , 接着 跟 有 足够 数目 的 next 链 将 把 我 们 带 回 到 节点 P, 那么 这 个 链表 包含 
一 个 循环 。p 不 必 是 该 表 的 第 一 个 节点 。 假 设 给 你 一 个 链表 , 它 包 含 N 个 节点 ; 不 过 NN 的 值 是 不 
知道 的 。 
a 设计 一 个 0( NN) 算法 以 确定 该 表 是 否 包 含有 循环 。 你 可 以 使 用 O(N) 的 额外 空间 。 


"b. 重复 (a) 部 分 , 但 是 只 使 用 0(1) 的 额外 空间 。( 提示 : 使 用 两 个 迭代 器 , 它们 最 初 在 表 的 开始 


处 , 但 以 不 同 的 速度 推进 。) 
实现 队列 的 一 种 方法 是 使 用 一 个 循环 链表 。 在 循环 链表 中 , 最 后 一 个 节点 的 next 链 是 链接 到 第 
1 个 节点 上 的 。 假 设 该 表 不 包含 表 头 ,并 假设 我 们 最 多 可 以 保留 一 个 迭代 器 , 它 对 应 表 中 的 一 个 
节点 。 对 于 下 列 的 哪 种 表示 方式 , 所 有 的 基本 队列 操作 都 可 以 以 常数 最 坏 情形 时 间 执行 ? 证 明 你 


， 的 答案 是 正确 的 。 


a 保留 一 个 迭代 器 , 它 对 应 该 表 的 第 一 项 。 

b. 保留 一 个 迭代 器 , 它 对 应 该 表 的 最 后 一 项 。 

设 我 们 有 到 单 链表 的 一 个 节点 的 引用 , 而 且 保证 它 不 是 该 表 的 最 后 的 节点 。 我 们 没有 到 任何 其 他 
节点 的 引用 (除非 通过 后 面 的 一 些 链 ) 。 描 述 一 个 0(1) 算 法 ， 该 算法 逻辑 上 从 该 链表 删除 存储 在 
这 样 一 个 节点 上 的 值 ， 同 时 保持 链表 的 完整 性 。( 提示 : 涉及 下 一 个 节点 。) 

设 单 链 表 用 到 一 个 头 节点 和 一 个 尾 节点 来 实现 。 描 述 下 述 操作 的 常数 时 间 算 法 : 

a. 在 位 置 p( 由 一 个 迭代 器 给 出 ) 前 插入 一 项 x。 

b. 删除 存储 在 位 置 p( 由 一 个 和 迭代 器 给 出 ) 的 项 。 


| 第 4 章 


Data Structures and Algorithm Analysis in Java, Third Edition 


树 





对 于 大 量 的 输入 数据 , 链表 的 线性 访问 时 间 太 慢 , 不 宜 使 用 。 本 章 讨 论 一 种 简单 的 数据 结 
H, 其 大 部 分 操作 的 运行 时 间 平 均 为 O(log N) 。 我 们 还 要 简 述 对 这 种 数据 结构 在 概念 上 的 简单 
的 修改 , 它 保证 了 在 最 坏 情形 下 上 述 的 时 间 界 。 此 外 ， ETA 种 修改 ， 对 于 长 的 指令 序 
列 它 基本 上 给 出 每 种 操作 的 O(log N) 运行 时 间 。 

这 种 数据 结构 叫 作 二 叉 查 找 树 ( binary search tree ) 。 二 又 查找 树 是 两 种 库 集合 类 TreeSet 
和 TreeMap 实现 的 基础 , 它们 用 于 许多 应 用 之 中 。 在 计算 机 科学 中 树 (tree) 是 非常 有 用 的 抽象 
BE. 因此, 我 们 将 讨论 树 在 其 他 更 一 般 的 应 用 中 的 使 用 。 在 这 一 章 , 我 们 将 

e 看 到 树 是 如 何 用 于 实现 几 个 流行 的 操作 系统 中 的 文件 系统 的 。 

e 看 到 树 如 何 能 够 用 来 计算 算术 表达 式 的 值 。 

e 指出 如 何 利用 树 支 持 以 Oog N) 平 均 时 间 进 行 的 各 种 搜索 操作 , 以 及 如 何 细 化 以 得 到 最 

坏 情 况 时 间 界 O(log N) 。 我 们 还 将 讨论 当 数据 被 存放 在 磁盘 上 时 如 何 来 实现 这 些 操 作 。 
e 讨论 并 使 用 TreeSet 类 和 TreeMap 类 。 


4.1 预备 知识 


树 (tree) 可 以 用 几 种 方式 定义 。 定 义 树 的 一 种 自然 的 方式 是 递归 的 方式 。 一 棵 树 是 一 些 节 
点 的 集合 。 这 个 集合 可 以 是 空 集 ; 若 不 是 空 集 , 则 树 由 称 作 根 (root) 的 节点 上 以 及 0 个 或 多 个 非 
空 的 ( 子 ) 树 7, T, +, T, AR, 这 些 子 树 中 每 一 棵 的 根 都 被 来 自 根 r 的 一 条 有 向 的 边 (edge) 
所 连结 。 

每 一 棵 子 树 的 根 叫 作 根 7 的 儿子 (child) ,而 "是 每 一 棵 子 树 的 根 的 父亲 (parent) 。 图 4-1 Sj 
示 用 递归 定义 的 典型 的 树 。 





从 递归 定义 中 我 们 发 现 , 一 棵 树 是 N 个 节点 和 NN -1 条 边 的 集合 , 其 中 的 一 个 节点 叫 作 根 。 
存在 N-1 条 边 的 结论 是 由 下 面 的 事实 得 出 的 : 每 条 边 都 将 某 个 节点 连接 到 它 的 父亲 , 而 除去 根 
节点 外 每 一 个 节点 都 有 一 个 父亲 ( 见 图 4-2) 。 





图 4-2 一 棵 树 


在 图 4-2 的 树 中 , 节点 4 是 根 。 节 点 已 有 一 个 父亲 4 IFA AILEY KVL AIM, 每 一 个 节点 可 
以 有 任意 多 个 儿子 , 也 可 能 是 零 个 儿子 。 没 有 儿子 的 节点 称 为 树叶 (leaft); 上 图 中 的 树叶 是 B. 
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C, HL, I, P,Q. KVL. MAIN, RR BIS] ^C ZR E] 3 ASL (siblings); 因此 , K、L 和 以 都 是 见 
弟 。 用 类 似 的 方法 可 以 定义 祖父 (grandparent) 和 孙子 (grandchild ) 关 系 。 

从 节点 n, Bl) n, 的 路 径 ( path) 定 义 为 节点 n, mj, cn, n, 的 一 个 序列 , 使 得 对 于 1<i<k 
节点 是 ni, 的 父亲 。 这 条 路 径 的 长 (length) 是 为 该 路 径 上 的 边 的 条 数 , 即 上 -1。 从 每 一 个 节 
点 到 它 自己 有 一 条 长 为 0 的 路 径 。 注 意 , 在 一 棵 树 中 从 根 到 每 个 节点 恰好 存在 一 条 路 径 。 

对 任意 节点 n, n; 的 深度 ( depth) 为 从 根 到 n 的 唯一 的 路 径 的 长 。 因 此 , 根 的 深度 为 0。n 
的 高 (height) EMA n; 到 一 片 树叶 的 最 长 路 径 的 长 。 因 此 所 有 的 树叶 的 高 都 是 0。 一 棵 树 的 高 等 
于 它 的 根 的 高 。 对 于 图 4-2 中 的 树 , E 的 深度 为 1 而 高 为 2; 下 的 深度 为 1 而 高 也 是 1; 该 树 的 高 
为 3。 一 棵 树 的 深度 等 于 它 的 最 深 的 树叶 的 深度 ; 该 深度 总 是 等 于 这 棵 树 的 高 。 

如 果 存 在 从 nm Bln, 的 一 条 路 径 , 那么 mn 是 的 一 位 祖先 (ancestor) Ti n, JE n, fh) —4 I8 
(descendant) 。 如 果 n, #n,, APA n, 是 n, 的 真 祖先 (proper ancestor) Mj n, 4 n, MEN ( proper 
descendant ) 。 

4.1.1 树 的 实现 

实现 树 的 一 种 方法 可 以 是 在 每 一 个 节点 除数 据 外 还 要 有 一 些 链 , 使 得 该 节点 的 每 一 个 儿子 都 
有 一 个 链 指向 它 。 然 而 , 由 于 每 个 节点 的 儿子 数 可 以 变化 很 大 并 且 事 先 不 知道 , 因此 在 数据 结构 
中 建立 到 各 ( 儿 ) 子 节点 直接 的 链接 是 不 可 行 的 , 因为 这 样 会 产生 太 多 浪费 的 空间 。 实 际 上 解决 方 
法 很 简单 : 将 每 个 节点 的 所 有 儿子 都 放 在 树 节点 的 链表 中 。 图 4-3 中 的 声明 就 是 典型 的 声明 。 

图 4-4 指出 一 棵 树 如 何 用 这 种 实现 方法 表示 出 来 。 图 中 向 下 的 箭头 是 指向 firstchild 
(第 一 儿子 ) 的 链 , 而 水 平 箭头 是 指向 nextSibling( 下 一 兄弟 ) HR. AW null EKZ T, 
所 以 没有 把 它们 画 出 。 


class TreeNode 


{ 


Object element; 

TreeNode firstChild; 

TreeNode nextSibling; 
} 





图 4-3 树 节点 的 声明 图 4-4 在 图 4-2 中 所 表示 的 树 的 第 一 儿子 /下 一 兄弟 表示 法 


在 图 4-4 的 树 中 , 节点 有 一 个 链 指向 兄弟 (Ff) , 男 一 链 指 向 儿子 (1) ,而 有 的 节点 这 两 种 
链 都 没有 。 
4.1.2 树 的 遍历 及 应 用 
树 有 很 多 应 用 。 流 行 的 用 法 之 一 是 包括 UNIX 和 DOS 在 内 的 许多 常用 操作 系统 中 的 目录 结 
构 。 图 4-5 是 UNIX 文件 系统 中 一 个 典型 的 目录 。 


/usr* 


mark* alex* bill* 
book* course* junk junk work* course* 
chlr  ch2r  ch3r — cop3530* cop3212* 
fall* spr* sum* fall* spr* 


syl.r syl.r sylr grades  proglr prog2.r prog2r  proglr grades 


图 4-5 UNIX 目录 
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这 个 目录 的 根 是 /usr( 名 字 后 面 的 星 号 指出 /usr 本 身 就 是 一 个 目录 )。/usr 有 三 个 儿子 : 
mark , alex fil bill, 它们 自己 也 都 是 目录 。 因 此 , /usr 包含 三 个 目录 并 且 没有 正规 的 文件 。 文 件 
名 /usr/mark/book/chl.r 先后 三 次 通过 最 左边 的 子 节 点 而 得 到 。 在 第 一 个 /后 的 每 个 /都 表示 一 
条 边 ; 结果 为 一 全 路 径 名 ( pathname) 。 这 个 分 级 文件 系统 非常 流行 , 因为 它 能 够 使 得 用 户 逻 辑 
地 组 织 数据 。 不 仅 如 此 , 在 不 同 目录 下 的 两 个 文件 还 可 以 享有 相同 的 名 字 , 因为 它们 必然 有 从 
根 开始 的 不 同 的 路 径 从 而 具有 不 同 的 路 径 名 。 在 UNIX 文件 系统 中 的 目录 就 是 含有 它 的 所 有 儿 
子 的 一 个 文件 , 因此 , 这 些 目录 几乎 是 完全 按照 上 述 的 类 型 声明 构造 的 5 EKE, 按照 UNIX 
的 某 些 版 本 ,如 果 将 打印 一 个 文件 的 标准 命令 应 用 到 一 个 目录 上 ，, 那么 在 该 目录 中 的 这 些 文件 
名 能 够 在 (与 其 他 非 ASCH 信息 一 起 的 ) 输 出 中 被 看 到 。 

设 我 们 想 要 列 出 目录 中 所 有 文件 的 名 字 。 输 出 格式 将 是 :- 深 度 为 二 现 文 件 将 被 d, 次 跳 格 
(tab) 缩 进 后 打印 其 名 。 该 算法 在 图 4-6 中 以 伪 码 给 出 = 。 

private void listAll( int depth ) 
printName( depth ); // Print the name of the object 
if( isDirectory( ) ) 
for each file c in this directory (for each child) 
c.listAll( depth + 1 ); 
) 


public void listAll( ) 
{ 

listAll( 0 ); 
) 





图 4-6” 列 出 分 级 文件 系统 中 目录 的 伪 码 例 程 


算法 的 核心 为 递归 方法 listAll, 为 了 显示 根 时 不 进行 缩 进 , 该 例 程 需要 从 深度 0 开始 。 
这 里 的 深度 是 一 个 内 部 簿 记 变 量 , 而 不 是 主 调 例 程 能 够 期 望 知道 的 参数 。 因 此 , 驱动 例 程 用 于 
将 递归 例 程 和 外 界 连接 起 来 。 

算法 逻辑 简单 易 懂 。 文 件 对 象 的 名 字 和 适当 的 跳 格 次 数 一 起 打印 出 来 。 如 果 是 一 个 目录 ， 
那么 以 递归 方式 一 个 一 个 地 处 理 它 所 有 的 儿子 。 这 些 儿 子 均 处 在 下 一 层 的 深度 上 , 因此 需要 缩 
进 一 个 附加 的 空间 。 整 个 输出 在 图 4-7 中 表示 。 

这 种 遍历 策略 叫 作 先 序 遍历 ( preorder traversal) 。 在 先 序 遍历 中 , 对 节点 的 处 理工 作 是 在 它 
的 诸 儿子 节点 被 处 理 之 前 (pre ) 进 行 的 。 很 显然 , 当 该 程序 运行 时 , 第 1 行 对 每 个 节点 恰好 执行 
”一 次 , 因为 每 个 名 字 只 输出 一 次 。 由 于 第 1 行 对 每 个 节点 最 多 执行 一 次 , 因此 第 2 行 也 必然 对 
每 个 节点 执行 一 次 。 不 仅 如 此 , 对 于 每 个 节点 的 每 一 个 子 节点 第 4 行 最 多 只 能 被 执行 一 次 。 但 
是 ,儿子 的 个 数 恰好 比 节点 的 个 数 少 1。 最 后 , 第 4 行 每 执行 一 次 ，for 循环 就 迭代 一 次 , 每 当 
循环 结束 时 再 加 上 一 次 。 因 此 , 在 每 个 节点 上 总 的 工作 量 是 常数 。 如 果 有 个 文件 名 需要 输 
出 ， 则 运行 时 间 就 是 O(N) 。 

男 一 种 遍历 树 的 常用 方法 是 后 序 遍 历 ( postorder traversal) 。 在 后 序 遍 历 中 , 一 个 节点 处 的 工 
作 是 在 它 的 诸 儿 子 节 点 被 计算 后 进行 的 。 例 如 , 图 4-8 表示 的 是 与 前 面相 同 的 目录 结构 , 其 中 
圆 括号 内 的 数字 代表 每 个 文件 占用 的 磁盘 区 块 (disk blocks) 的 个 数 。 





O 在 UNK 文件 系统 中 每 个 目录 还 有 一 项 指向 该 目录 本 身 以 及 另 一 项 指向 该 目录 的 父 目录 。 因 此 , 从 技术 上 
说 , UNIX 文件 系统 不 是 树 , 而 是 类 树 。 
OQ ”实现 该 算法 的 Java 程序 由 文件 FileSystem. java 联机 提供 。 它 用 到 课文 中 尚未 讨论 的 一 些 Java 特点 。 
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/usr 
mark 

book 
chl.r 
ch2.r 
ch3.r 

course 
cop3530 

fall 


spr 


sum 


junk 


alex 
junk 
bill 
work 
course 
cop3212 
fall 
grades 
progl.r 
prog2.r 
spr 
prog2.r 
progl.r 
grades 





图 4-7 (OE) 目录 列表 


/usr*(1) 
mark*(1) alex*(1) bill*(1) 
book*(1) course*(1) junk(6) M work*(1) course*(1) 
chl.r(3) ch2.r(2) ch3.r(4)- cop3530*(1) M 
fall*(1)  spr*(1) sum*(l) fall*(1) spr*(1) 


sylr(1) syl.r(5)  sylr(2) grades(3) proglr(4) prog2.r(1) prog2.r(2) progl.r(7) grades(9) 
4-8 经 由 后 序 遍 历 得 到 的 带 有 文件 大 小 的 UNIX. 目录 


由 于 目录 本 身 也 是 文件 , 因此 它们 也 有 大 小 。 设 我 们 想 要 计算 被 该 树 所 有 文件 占用 的 磁盘 
区 块 的 总 数 。 最 自然 的 做 法 是 找 出 含 于 子 目 录 /usr/ mark (30) , /usr/alex (9) #il/usr/bill (32) AY 
区 块 的 个 数 。 于 是 , 磁盘 区 块 的 总 数 就 是 子 目录 中 的 区 块 的 总 数 (71) 加 上 /usr 使 用 的 一 个 区 
块 , 共 72 个 区 块 。 图 4-9 中 的 伪 码 方法 size 实现 这 种 遍历 策略 。 

如 果 当 前 对 象 不 是 目录 , 那么 size 只 返回 它 所 占用 的 区 块 数 。 否 则 , 被 该 目录 占用 的 区 
块 数 将 被 加 到 在 其 所 有 子 节点 (递归 地 ) 发 现 的 区 块 数 中 去 。 为 了 区 别 后 序 遍 历 策 略 和 先 序 遍历 
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策略 之 间 的 不 同 , 图 4-10 显示 每 个 目录 或 文件 的 大 小 是 如 何 由 该 算法 产生 的 。 


public int size( ) 


{ 
int totalSize = sizeOfThisFile( ); 


if( isDirectory( ) ) 


for each file c in this directory (for each child) 
totalSize *- c.size( ); 


return totalSize; 





图 4-9 计算 一 个 目录 大 小 的 伪 码 例 程 


syl.r 
fall 
syl.r 
spr 
syl.r 
sum 
cop3530 
course 
junk 
mark 


w 
SN NOR FPWR WO WODAWNWNAY F2 — CO FD W 


junk 
alex 
work 


grades 
progl.r 
prog2.r 

fall 
prog2.r 
progl.r 
grades 

spr 

cop3212 
course 
bill 
/usr 


图 4-10 K% size 的 印迹 
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42 二 又 树 


二 叉 树 (binary tree) 是 一 棵 树 , 其 中 每 个 节点 都 不 能 有 多 于 两 个 的 儿子 。 
图 4-11 显示 一 棵 由 一 个 根 和 两 棵 子 树 组 成 的 二 又 树 , 子 树 T, 和 Ti 均 可 能 为 空 。 
二 叉 树 的 一 个 性 质 是 一 棵 平均 二 又 树 的 深度 要 比 节点 个 数 小 得 多 , 这 个 性 质 有 时 很 重要 。 分 


HER, 其 平均 深度 为 0(VN) , 而 对 于 特殊 类 型 的 二 叉 树 , 即 二 叉 查找 树 ( binary search tree), 其 深度 
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的 平均 值 是 0(log N) 。 不 幸 的 是 , 正如 图 4-12 中 的 例子 所 示 , 这 个 深度 是 可 以 大 到 N-1 的 。 


LN LS 


图 4-11 一 般 二 叉 树 图 4-12 最 坏 情形 的 二 叉 树 
4.2.1 实现 
因为 一 个 二 又 树 节点 最 多 有 两 个 子 节点 , 所 以 我 们 可 以 保存 直接 链接 到 它们 的 链 。 树 节点 
的 声明 在 结构 上 类 似 于 双 链 表 的 声明 , 在 声明 中 , 节点 就 是 由 element( 元 素 ) 的 信息 加 上 两 个 
到 其 他 节点 的 引用 (left 和 right) 组 成 的 结构 ( 见 图 4-13 ) 。 


class BinaryNode 





// Friendly data; accessible by other package routines 
Object element; // The data in the node 
BinaryNode left; // Left child 
BinaryNode right; // Right child 





} 


图 4-13 二 又 树 节点 类 


我 们 习惯 上 在 画 链表 时 使 用 和 矩形 框 画 出 二 叉 树 , 但 是 , 树 一 般 画 成 圆圈 并 用 一 些 直 线 连接 
起 来 , 因为 它们 实际 上 就 是 图 ( graph) 。 当 涉及 树 时 , 我 们 也 不 明显 地 画 出 null 链 , 因为 具有 
个 节点 的 每 一 棵 二 又 树 都 将 需要 N+1 个 null ff. 

二 义 树 有 许多 与 搜索 无 关 的 重要 应 用 。 二 叉 树 的 主要 用 处 之 一 是 在 编译 器 的 设计 领域 , 我 
们 现在 就 来 探索 这 个 问题 。 

4.2.2 例子 : 表达 式 树 

图 4-14 显示 一 个 表达 式 树 (expression tree ) 的 
例子。 表达 式 树 的 树叶 是 操作 数 ( operand) ， 如 党 
数 或 变量 名 ,而 其 他 的 节点 为 操作 符 ( operator) 。 
由 于 这 里 所 有 的 操作 都 是 二 元 的 , 因此 这 棵 特定 
的 树 正好 是 二 叉 树 , 虽然 这 是 最 简单 的 情况 , 但 是 
节点 还 是 有 可 能 含有 多 于 两 个 的 儿子 。 一 个 节点 ”图 4-14 (a+bec) +((dee+t) *g) 

也 有 可 能 只 有 二 个 儿子 ; 如 具有 一 目 减 算 符 (unary A 

minus operator) 的 情形 。 我 们 可 以 将 通过 递归 计算 左 子 树 和 右 子 树 所 得 到 的 值 应 用 在 根 处 的 运算 
符 上 而 算出 表达 式 树 TH. EKAR, 左 子 树 的 值 是 a + (b * c) , 右 子 树 的 值 是 ( (ad*e)+ 
f)*g, 因此 整个 树 表示 (a+(bx*c))+(((d*e) +f) *g), 

我 们 可 以 通过 递归 地 产生 一 个 带 括 号 的 左 表 达 式 , 然后 打印 出 在 根 处 的 运算 符 , 最 后 再 递 
归 地 产生 一 个 带 括号 的 右 表 达 式 而 得 到 一 个 (对 两 个 括号 整体 进行 运算 的 ) 中 缀 表达 式 。 这 种 
一 般 的 方法 ( 左 , 节点 , 右 ) 称 为 中 序 遍历 (inorder traversal) 。 由 于 其 产生 的 表达 式 类 型 , 这 种 遍 
历 很 容易 记忆 。 

另 一 种 遍历 策略 是 递归 地 打印 出 左 子 树 、 右 子 树 , 然后 打印 运算 符 。 如 果 我 们 将 这 种 策略 
应 用 于 上 面 的 树 , 则 将 输出 abc * +de * f+g e+, 显而易见 , 它 就 是 3.6.3 节 中 的 后 缀 
表示 法 。 这 种 遍历 策略 一 般 称 为 后 序 遍 历 。 我 们 稍 早已 在 4. 1 节 见 过 这 种 遍历 方法 。 





Pt 77 





第 三 种 遍历 策略 是 先 打印 出 运算 符 , 然后 递归 地 打印 出 右 子 树 和 左 子 树 。 此 时 得 到 的 表达 
式 ++a*bc* + * defg 是 不 太 常 用 的 前 组 (prefix) 记 法 , 这 种 遍历 策略 为 先 序 遍 历 , HERI] 
也 在 4.1 节 见 过 。 以 后 , 我 们 还 要 在 本 章 讨论 这 些 遍 历 方法 。 109 | 

MIE RIAN 

RIAA Hi — AI RAE ATE RIA. BITRATE TORR RK 
转变 成 后 缀 表达 式 的 算法 ,因此 我 们 能 够 从 这 两 种 常用 类 型 的 输入 生成 表达 式 树 。 这 里 所 描述 
的 方法 酷似 3. 6.3 节 的 后 缀 求 值 算 法 。 我 们 一 次 一 个 符号 地 读 入 表达 式 。 如 果 符 号 是 操作 数 ， 
那么 就 建立 一 个 单 节点 树 并 将 它 推 人 栈 中 。 如 果 符 号 是 操作 符 , 那么 就 从 栈 中 弹出 两 棵 树 T, 和 
T, CT, 先 弹出 ) 并 形成 一 棵 新 的 树 , 该 树 的 根 就 是 操作 符 , 它 的 左 、 右 儿子 分 别 是 7 和 下。 然后 
将 这 棵 新 树 压 人 栈 中 。 - 

来 看 一 个 例子 。 设 输入 为 

ab+cde+ ** 


前 两 个 符号 是 操作 数 , 因此 创建 两 棵 单 节点 树 并 将 它们 压 人 栈 中 ” 。 
Uti TI 
a) (b) 


接着 ,“ + BRA, 因此 两 棵 树 被 弹出 , 一 棵 新 的 树 形成 , 并 被 压 人 栈 中 。 
LIT I1 








然后 , c、a 和 e BRA, 在 每 个 单 节点 树 创建 后 , 对 应 的 树 被 压 入 栈 中 。 [110] 
LN INIT | 


O € 
接 下 来 读 和 人 ' + "号 ,因此 两 棵 树 合并 。 
aa 


继续 进行 , EAS * “号 , 因此 , 我 们 弹出 两 棵 树 并 形成 一 棵 新 的 树 ,，“ *' 号 是 它 的 根 。 








日 ”为 了 方便 起 见 , 我 们 将 让 图 中 的 栈 从 左 到 右 增长 。 
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最 后 , 读 人 最 后 一 个 符号 , 两 棵 树 合并 , 而 最 后 的 树 被 留 在 栈 中 。 





4.3 查找 树 ADT 一 一 二 又 查找 树 


二 叉 树 的 一 个 重要 的 应 用 是 它们 在 查找 中 的 使 用 。 假 设 树 中 的 每 个 节点 存储 一 项 数据 。 在 
我 们 的 例子 中 , 虽然 任意 复杂 的 项 在 Java 中 都 容易 处 理 , 但 为 简单 起 见 还 是 假设 它们 是 整数 。 
还 将 假设 所 有 的 项 都 是 互 异 的 ,以 后 再 处 理 有 重复 元 的 情况 。 
使 二 又 树 成 为 二 又 查找 树 的 性 质 是 ,对 于 树 中 的 每 个 节点 X, 它 的 左 子 树 中 所 有 项 的 值 小 
于 X 中 的 项 , 而 它 的 右 子 树 中 所 有 项 的 值 大 于 X 中 的 a (9) 
项 。 注意, 这 意味 着 该 树 所 有 的 元 素 可 以 用 某 种 一 致 的 
方式 排序 。 在 图 4-15 中 , 左边 的 树 是 二 又 查找 树 , we G O m) u 
边 的 树 则 不 是 。 右 边 的 树 在 其 项 是 6 的 节点 (该 节点 正 《9 M a$ t» 
好 是 根 节点 ) 的 左 子 树 中 , 有 一 个 节点 的 项 是 了 。 
现在 给 出 通常 对 二 又 查找 树 进行 的 操作 的 简要 描 © G O 
述 。 注 意 , 由 于 树 的 递归 定义 , 通常 是 递归 地 编写 这 些 
操作 的 例 程 。 因 为 二 又 查找 树 的 平均 深度 是 O(log N, SAI ER RAY aM 
所 以 一 般 不 必 担心 栈 空间 被 用 尽 。 
二 又 查找 树 要求 所 有 的 项 都 能 够 排序 。 要 写 出 一 个 一 般 的 类 , 我 们 需要 提供 一 个 
interface( 接 口 ) 来 表示 这 个 性 质 。 这 个 接口 就 是 Comparable, 第 1 章 曾经 描述 过 。 该 接 
口 告诉 我 们 , 树 中 的 两 项 总 可 以 使 用 comparero 方法 进行 比较 。 由 此 , 我 们 能 够 确定 所 有 其 
他 可 能 的 关系 。 特 别 是 我 们 不 使 用 equals 方法 ,而 是 根据 两 项 相等 当 上 且 仅 当 compareTo 方 
法 返回 0 来 判断 相等 。 另 一 种 方法 是 使 用 一 个 函数 对 象 , 将 在 4.3.1 节 中 描述 。 图 4-16 还 指 
出 , BinaryNode 类 象 链表 类 中 的 节点 类 一 样 , 是 一 个 嵌 套 类 。 


private static class BinaryNode<AnyType> 


{ 





// Constructors 
BinaryNode( AnyType theElement ) 
( this( theElement, null, null ); } 


BinaryNode( AnyType theElement, BinaryNode<AnyType> lt, BinaryNode<AnyType> rt ) 
{ element = theElement; left = 1t; right = rt; } 


1 
2 
3 
4 
5 
6 
f 
8 


AnyType element; // The data in the node 
BinaryNode<AnyType> left; // Left child 
BinaryNode<AnyType> right; // Right child 





图 4-16 BinaryNode 类 
图 4-17 显示 BinarySearchTree 类 架构 , 其 中 唯一 的 数据 域 是 对 根 节点 的 引用 , 这 个 引 


用 对 于 空 树 来 说 是 null。 这 些 public 方法 使 用 了 调用 诸 private 递归 方法 的 一 般 技巧 。 
现在 描述 某 些 私有 方法 。 





public class BinarySearchTree<AnyType extends Comparable<? super AnyType>> 
{ 


private static class BinaryNode<AnyType> 
{ /* Figure 4.16 */ } 


private BinaryNode<AnyType> root; 


public BinarySearchTree( ) 
( root = null; } 





public void makeEmpty( ) 
{ root = null; } 

public boolean isEmpty( ) 
{ return root == null; } 


public boolean contains( AnyType x ) 
{ return contains( x, root ); } 
public AnyType findMin( ) 
( if( isEmpty( ) ) throw new UnderflowException( ); 
return findMin( root ).element; 
} 
public AnyType findMax( ) 
{ if( isEmpty( ) ) throw new UnderflowException( ); 
return findMax( root ).element; 
) 
public void insert( AnyType x ) 
( root = insert( x, root ); ) 
public void remove( AnyType x ) 
{ root = remove( x, root ); } 
public void printTree( ) 
{ /* Figure 4.56 */ } 


private boolean contains( AnyType x, BinaryNode<AnyType> t ) 
{ /* Figure 4.18 */ } 

private BinaryNode<AnyType> findMin( BinaryNode<AnyType> t ) 
{ /* Figure 4.20 */ } 

private BinaryNode<AnyType> findMax( BinaryNode<AnyType> t ) 
{ /* Figure 4.20 */ ) 


private BinaryNode<AnyType> insert( AnyType x, BinaryNode<AnyType> t ) 
{ /* Figure 4.22 */ } 

private BinaryNode<AnyType> remove( AnyType x, BinaryNode<AnyType> t ) 
{ /* Figure 4.25 «/ } 

private void printTree( BinaryNode<AnyType> t ) 
{ /* Figure 4.56 */ ) 





图 4-17 二 又 查找 树 架 构 


4.3.1 contains 方法 
如 果 在 树 7 中 存在 含有 项 的 节点 , 那么 这 个 操作 需要 返回 crue, 如 果 这 样 的 节点 不 存在 
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则 返回 false。 树 的 结构 使 得 这 种 操作 很 简单 。 如 果 了 是 空 集 , 那么 可 以 就 返回 false. T 
WW, 如 果 存 储 在 7 处 的 项 是 了 , 那么 可 以 返回 true, BW, 我 们 对 树 7 的 左 子 树 或 右 子 树 进行 
一 次 递归 调用 , 这 依赖 于 X 与 存储 在 7 中 的 项 的 关系 。 图 4-18 中 的 代码 就 是 对 这 种 方法 的 一 种 
实现 。 


/** 

* Internal method to find an item in a subtree. 

* (param x is item to search for. 

* (param t the node that roots the subtree. 

* @return true if the item is found; false otherwise. 

*/ 

private boolean contains( AnyType x, BinaryNode<AnyType> t ) 
{ 

if( t == null ) 
return false; 


1 
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int compareResult = x.compareTo( t.element ); 





if( compareResult « 0 ) 

return contains( x, t.left ); 
else if( compareResult » 0 ) 

return contains( x, t.right ); 
else 

return true; // Match 
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图 4-18 二 叉 查找 树 的 contains 操作 
注意 测试 的 顺序 。 关 键 的 问题 是 首先 要 对 是 否 空 树 进行 测试 , 否则 我 们 就 会 生成 一 个 企图 


通过 null 引用 访问 数据 域 的 NullPointerException 异常 。 剩 下 的 测试 应 该 使 得 最 不 可 能 


的 情况 安排 在 最 后 进行 。 还 要 注意 , 这 里 的 两 个 递归 调用 事实 上 都 是 尾 递 归并 且 可 以 用 一 个 
while 循环 很 容易 地 代替 。 尾 递归 的 使 用 在 这 里 是 合理 的 , 因为 算法 表达 式 的 简明 性 是 以 速度 
的 降低 为 代价 的 , 而 这 里 所 使 用 的 栈 空间 的 量 也 只 不 过 是 0(log N) 而 已 。 图 4-19 显示 需要 使 
用 一 个 函数 对 象 而 不 是 要 求 这 些 项 是 Comparable 的 。 它 模仿 1.6 节 的 风格 。 
4.3.2 findMin 方法 和 findMax 方法 

这 两 个 private 例 程 分 别 返回 树 中 包含 最 小 元 和 最 大 元 的 节点 的 引用 。 为 执行 
findMin， 从 根 开 始 并 且 只 要 有 左 儿 子 就 向 左 进行 。 终 止 点 就 是 最 小 的 元 素 。findMax 例 程 
除 分 支 朝 向 右 儿子 外 其 余 过 程 相 同 。 

这 种 递归 是 如 此 容易 以 至 于 许多 程序 设计 员 不 大 其 烦 地 使 用 它 。 我 们 用 两 种 方法 编写 这 两 
个 例 程 , 用 递归 编写 findMin 而 用 非 递归 编写 findMax( 见 图 4-20) 。 

注意 ， 我 们 是 如 何 小 心地 处 理 空 树 的 退化 情况 的 。 虽 然 这 样 做 总 是 重要 的 , 但 是 特别 在 递 
归程 序 中 它 尤 其 重要 。 此 外 , 还 要 注意 , 在 £inaMax 中 对 t 的 改变 是 安全 的 , 因为 我 们 只 用 到 
引用 的 拷贝 来 进行 工作 。 不 管 怎么 说 , 还 是 应 该 随时 特别 小 心 , 因为 诸如 t.right =t.right 
.right 这 样 的 语句 将 会 产生 一 些 变化 。 
4.3.3 insert 方法 

进行 插入 操作 的 例 程 在 概念 上 是 简单 的 。 为 了 将 插入 到 树 T 中, 你 可 以 像 用 contains 
那样 沿 着 树 查 找 。 如 果 找 到 蕊 , 则 什么 也 不 用 做 (或 做 一 些 “ 更 新 ) 。 否 则 , 将 插入 到 遍历 
的 路 径 上 的 最 后 一 点 上 。 图 4-21 显示 实际 的 插入 情况 。 为 了 插入 5，, 我 们 遍历 该 树 就 好 像 在 运 
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fi contains, WRA Xr 4 的 节点 处 , 我 们 需要 向 右 行进 , 但 右边 不 存在 子 树 , 因此 5 不 在 
这 棵 树 上 ,从 而 这 个 位 置 就 是 所 要 插入 的 位 置 。 


public class BinarySearchTree<AnyType> 

{ 
private BinaryNode<AnyType> root; 
private Comparator<? super AnyType> cmp; 


public BinarySearchTree( ) 
{ this( null ); ) 


public BinarySearchTree( Comparator«? super AnyType» c ) 
{ root = null; cmp = c; } 


private int myCompare( AnyType lhs, AnyType rhs ) 
{ 
if( cmp != null ) 
return cmp.compare( Ths, rhs ); 
else 
return ((Comparable)lhs).compareTo( rhs ); 


} 


private boolean contains( AnyType x, BinaryNode<AnyType> t ) 
{ 
if( t == null ) 
return false; 


int compareResult = myCompare( x, t.element ); 


if( compareResult < 0 ) 
return contains( x, t.left ); 
else if( compareResult > 0 ) 
return contains( x, t.right ); 
else 
return true; // Match 
} 


// Remainder of class is similar with calls to compareTo replaced by myCompare 





图 4-19 对 使 用 函数 对 象 实现 二 又 查找 树 的 注释 


重复 元 的 插 人 可 以 通过 在 节点 记录 中 保留 一 个 附加 域 以 指示 发 生 的 频率 来 处 理 。 这 对 整个 的 
树 增加 了 某 些 附加 空间 , 但 是 , 却 比 将 重复 信息 放 到 树 中 要 好 ( 它 将 使 树 的 深度 变 得 很 大 ) 。 当 然 ， 
如 果 compareTo 方法 使 用 的 关键 字 只 是 一 个 更 大 结构 的 一 部 分 , 那么 这 种 方法 行 不 通 , 此 时 我 们 
可 以 把 具有 相同 关键 字 的 所 有 结构 保留 在 一 个 辅助 数据 结构 中 , 如 表 或 是 另 一 棵 查找 树 。 

图 4-22 显示 插入 例 程 的 代码 。 由 于 上 引用 该 树 的 根 , 而 根 又 在 第 一 次 插入 时 变化 , 因此 
insert 被 写成 一 个 返回 对 新 树 根 的 引用 的 方法 。 第 15 行 和 第 17 行 递归 地 插入 x 到 适当 的 子 
树 中 。 
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/** 
* Internal method to find the smallest item in a subtree. 
* @param t the node that roots the subtree. 
* @return node containing the smallest item. 
*/ 
private BinaryNode<AnyType> findMin( BinaryNode<AnyType> t ) 
{ 
if( t == null ) 
return null; 
else if( t.left == null ) 
return t; 
return findMin( t.left ); 
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[** 

* Internal method to find the largest item in a subtree. 

* @param t the node that roots the subtree. 

* @return node containing the largest item. 

*/ 

private BinaryNode<AnyType> findMax( BinaryNode<AnyType> t ) 
{ 

if( t != null ) 
while( t.right != null ) 
t = t.right; 


return t; 





4-20 对 二 又 查找 树 的 £inaMin 的 递归 实现 和 findMax 的 非 递归 实现 


Q (6) 
2 oO QA OO 
Cy (4) e O 
Gj © © 
图 4-21 在 插入 5 以 前 和 以 后 的 二 叉 查 找 树 


4.3.4 remove 方法 

正如 许多 数据 结构 一 样 , 最 困难 的 操作 是 remove ( 删除) 。 一 旦 我 们 发 现 要 被 删除 的 节 
点 ， 就 需要 考虑 几 种 可 能 的 情况 。 

如 果 节 点 是 一 片 树叶 , 那么 它 可 以 被 立即 删除 。 如 果 节 点 有 一 个 儿子 , 则 该 节点 可 以 在 其 
父 节点 调整 自己 的 链 以 绕 过 该 节点 后 被 删除 (为 了 清楚 起 见 , 我 们 将 明确 地 画 出 链 的 指向 ) ， 见 
图 4-23。 

复杂 的 情况 是 处 理 具 有 两 个 儿子 的 节点 。 一 般 的 删除 策略 是 用 其 右 子 树 的 最 小 的 数据 (很 
容易 找到 ) 代替 该 节点 的 数据 并 递归 地 删除 那个 节点 (现在 它 是 空 的) 。 因 为 右 子 树 中 的 最 小 的 
节点 不 可 能 有 左 儿 子 , 所 以 第 二 次 remove 要 容易 。 图 4-24 显示 一 棵 初始 的 树 及 其 中 一 个 节点 
被 删除 后 的 结果 。 要 被 删除 的 节点 是 根 的 左 儿 子 ; 其 关键 字 是 2。 它 被 其 右 子 树 中 的 最 小 数据 3 
MRE, 然后 关键 字 是 3 的 原 节点 如 前 例 那样 被 删除 。 





/** 

* Internal method to insert into a subtree. 

* @param x the item to insert. 

* (param t the node that roots the subtree. 

* (return the new root of the subtree. 

*/ 
private BinaryNode<AnyType> insert( AnyType x, BinaryNode<AnyType> t ) 
{ 


oN DU AN 一 


if( t == null ) 
return new BinaryNode<>( x, null, null ); 


int compareResult = x.compareTo( t.element ); 


if( compareResult « 0 ) 

t.left = insert( x, t.left ); 
else if( compareResult » 0 ) 

t.right = insert( x, t.right ); 
else 

; // Duplicate; do nothing 
return t; 





图 4-22 ”将 元 素 插 人 到 二 又 查找 树 的 例 程 


sgt 


图 4-23 具有 一 个 儿子 的 节点 4 删除 前 后 的 情况 。 图 4-24 删除 具有 两 个 儿子 的 节点 2 前 后 的 情况 


图 4-25 中 的 程序 完成 删除 的 工作 , 但 它 的 效率 并 不 高 , 因为 它 沿 该 树 进行 两 趟 搜索 以 查找 
和 删除 右 子 树 中 最 小 的 节点 。 通 过 写 一 个 特殊 的 removeMin 方法 可 以 容易 地 改变 这 种 效率 不 
高 的 缺点 , 我 们 这 里 将 它 略 去 只 是 为 了 简明 。 

如 果 删 除 的 次 数 不 多 , 通常 使 用 的 策略 是 懒惰 删除 (lazy deletion) : 当 一 个 元 素 要 被 删除 时 ， 
它 仍 留 在 树 中 , 而 只 是 被 标记 为 删除 。 这 特别 是 在 有 重复 项 时 很 常用 , 因为 此 时 记录 出 现 频率 
数 的 域 可 以 减 1。 如 果树 中 的 实际 节点 数 和 “被 删除 ”的 节点 数 相同 , 那么 树 的 深度 预计 只 上 
升 一 个 小 的 常数 (为 什么 ?), 因此, 存在 一 个 与 懒惰 删除 相关 的 非常 小 的 时 间 损 耗 。 再 有 ,如果 
被 删除 的 项 是 重新 插入 的 , 那么 分 配 一 个 新 单元 的 开销 就 避免 了 。 
4.8.5 平均 情况 分 析 

直观 上 , 我 们 期 望 前 一 节 所 有 的 操作 都 花费 Oog N) 时 间 , 因为 我 们 用 常数 时 间 在 树 中 降 
低 了 一 层 , 这 样 一 来 , 对 其 进行 操作 的 树 大 致 减 小 一 半 左 右 。 因 此 , 所 有 操作 的 运行 时 间 都 是 
0(d), 其 中 4d 是 包含 所 访问 的 项 的 节点 的 深度 。 

我 们 在 本 节 要 证 明 , 假设 所 有 的 插入 序列 都 是 等 可 能 的 , 则 树 的 所 有 节点 的 平均 深度 
为 0(log N)。 

一 棵 树 的 所 有 节点 的 深度 的 和 称 为 内 部 路 径 长 (internal path length) 。 我 们 现在 将 要 计算 二 
叉 查找 树 平 均 内 部 路 径 长 , 其 中 的 平均 是 对 向 二 叉 查 找 树 中 所 有 可 能 的 插 人 序列 进行 的 。 





84 PAF 








| ** 
* Internal method to remove from a subtree. 
* @param x the item to remove. 
* @param t the node that roots the subtree. 
* @return the new root of the subtree. 
x/ 
private BinaryNode<AnyType> remove( AnyType x, BinaryNode<AnyType> t ) 
{ 

if( t == null ) 

return t;  // Item not found; do nothing 


ON DU AW NH — 


int compareResult = x.compareTo( t.element ); 


if( compareResult < 0 ) 
t.left = remove( x, t.left ); 
else if( compareResult » 0 ) 
t.right = remove( x, t.right ); 
else if( t.left !- null && t.right != null ) // Two children 
( 
t.element = findMin( t.right ).element; 
t.right = remove( t.element, t.right ); 
) 


else 
t= (t.left != null ) ? t.left : t.right; 
return t; 





图 4-25 二 叉 查找 树 的 删除 例 程 


令 DCVN) 是 具有 六 个 节点 的 某 棵 树 了 的 内 部 路 径 长 , DCL) 20, =A N 节点 树 由 一 棵 守节 
点 左 子 树 和 一 棵 (N — i — 1T)- 节 点 右 子 树 以 及 深度 0 处 的 一 个 根 节点 组 成 , 其 中 0 和 ;< N， 
D(i) 为 根 的 左 子 树 的 内 部 路 径 长 。 但 是 在 原 树 中 , 所 有 这 些 节 点 都 要 加 深 一 度 。 同 样 的 结论 对 
于 右 子 树 也 成 立 。 因 此 我 们 得 到 递 推 关 系 
D(N) =D(i) +D(N-i-1)+N-1 
如 果 所 有 子 树 的 大 小 都 等 可 能 地 出 现 ， 这 对 于 二 叉 查找 树 是 成 立 的 (因为 子 树 的 大 小 只 依赖 于 
第 一 — PHRASES! BSOCAERSRDN IS AR (nn ) ,但 对 三 天 简 不 成 立 , BI DCS) DUN - i-1) 的 


平均 值 都 是 (1/N) ELO -于 是 


DON) = HL Due N - 1 


在 第 7 章 将 遇 到 并 求解 这 个 递 推 式 ， 得 到 的 平均 值 为 D(N) =O(N log N)。 因 此 任意 节点 预期 的 深 
REJ O(log N)。 作 为 一 个 例子 , 图 4-26 所 示 随 机 生成 的 500 个 节点 的 树 的 节点 期 望 深度 为 9. 98。 
由 这 个 结果 似乎 可 以 立即 看 出 上 一 节 讨 论 的 所 有 操作 的 平均 运行 时 间 是 O(log N), 但 这 并 
不 完全 正确 。 原 因 在 于 删除 操作 , 我 们 并 不 清楚 是 否 所 有 的 二 叉 查 找 树 都 是 等 可 能 出 现 的 。 特 
别 是 上 面 描 述 的 删除 算法 有 助 于 使 得 左 子 树 比 右 子 树 深度 深 , 因为 我 们 总 是 用 右 子 树 的 一 
点 来 代替 删除 的 节点 。 这 种 方法 的 准确 的 效果 仍然 是 未 知 的 , 但 它 似 乎 只 是 理论 上 的 悬念 。 业 
已 证 明 , 如 果 我 们 交替 插入 和 删除 ON’) Uc, 那么 树 的 期 望 深度 将 是 @(VN)。 在 25 万 次 随机 
insert /remove 对 操作 后 ,图 4-26 中 右 沉 的 树 看 起 来 明显 地 不 平衡 (平均 深度 =12.51), 见 
图 4-27。 
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图 4-26 一 棵 随机 生成 的 二 又 查找 树 


图 4-27 1E O(N ) 次 insert /cemove 对 操作 后 的 二 叉 查 找 树 


在 删除 操作 中 , 我 们 可 以 通过 随机 选取 右 子 树 的 最 小 元 素 或 左 子 树 的 最 大 元 素来 代替 被 删除 
的 元 素 以 消除 这 种 不 平衡 问题 。 这 种 做 法 明显 消除 了 上 述 偏向 并 使 树 保持 平衡 , 但 是 , 没有 人 实 
际 上 证 明 过 这 一 点 。 无 论 如 何 , 这 种 现象 似乎 主要 是 理论 上 的 问题 , 因为 对 于 小 的 树 上 述 效果 根 
本 不 明显 , 甚至 更 奇怪 。 如 果 使 用 o(W ) 对 insert /remove 操作 , 那么 树 似乎 可 以 得 到 平衡 ! 

上 面 的 讨论 主要 是 说 明 , 决定 “平均 ”意味 着 什么 一 般 是 极其 困难 的 , 可 能 需要 一 些 假 
设 , 这 些 假设 可 能 合理 , 也 可 能 不 合理 。 不 过 , 在 没有 删除 或 是 使 用 懒惰 删除 的 情况 下 , 我 们 可 
以 断言 上 述 那 些 操作 的 平均 运行 时 间 都 是 O(log N)。 除 像 上 面 讨论 的 一 些 个 别 情形 外 ,这 个 
结果 与 实际 观察 到 的 情形 是 非常 一 致 的 。 

如 果 向 一 棵 树 输 入 预先 排 好 序 的 数据 , 那么 一 连 串 insert 操作 将 花费 二 次 的 时 间 , 而 链 
表 实 现 的 代价 会 非常 巨大 , 因为 此 时 的 树 将 只 由 那些 没有 左 儿 子 的 节点 组 成 。 一 种 解决 办 法 就 
是 要 有 一 个 称 为 平衡 (balance) 的 附加 的 结构 条 件 : 任何 节点 的 深度 均 不 得 过 深 。 

许多 一 般 的 算法 都 能 实现 平衡 树 。 但 是 , 大 部 分 算法 都 要 比 标准 的 二 叉 查 找 树 复杂 得 多 ， 
而 且 更 新 要 平均 花费 更 长 的 时 间 。 不 过 , 它们 确实 防止 了 处 理 起 来 非常 麻烦 的 一 些 简单 情形 。 
下 面 , 我 们 将 介绍 最 古老 的 一 种 平衡 查找 树 , HI AVL |f. 
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另外 , 较 新 的 方法 是 放弃 平衡 条 件 , 允许 树 有 任意 的 深度 , 但 是 在 每 次 操作 之 后 要 使 用 一 
个 调整 规则 进行 调整 , 使 得 后 面 的 操作 效率 要 高 。 这 种 类 型 的 数据 结构 一 般 属于 自 调整 (self- 
adjusting) 类 结构 。 在 二 又 查找 树 的 情况 下 , 对 于 任意 单个 操作 我 们 不 再 保证 O(log N) 的 时 间 
Jt, 但 是 可 以 证 明 任意 连续 M 次 操作 在 最 坏 的 情形 下 花费 时 间 OCM log N)。 一 般 这 足以 防止 
令 人 棘手 的 最 坏 情 形 。 我 们 将 要 讨论 的 这 种 数据 结构 叫 作 伸展 树 ( splay tree) ; 它 的 分 析 相 当 复 
AS, 我 们 将 在 第 11 章 讨论 。 


4.4 AVL 树 


AVL( Adelson- Velskii 和 Landis ) 树 是 带 有 平衡 条 件 (balance condition) 的 二 又 查找 树 。 这 个 
平衡 条 件 必 须要 容易 保持 , 而 且 它 保证 树 的 深度 须 是 O(log N) 。 最 简单 的 想法 是 要 求 左 右 子 树 
具有 相同 的 高 度 。 如 图 4-28 所 示 , 这 种 想法 并 不 强求 树 的 深度 要 浅 。 

eee ee ee ae 树 和 右 子 树 。 如 果 空 子 树 的 高 度 
定义 为 -1( 通 常 就 是 这 么 定义 ) , 那么 只 有 具有 2 -1 个 节点 的 理想 平衡 树 ( perfectly balanced 
tree) 满足 这 个 条 件 。 因 此 ， RARER IHRE T RARE, 但 是 它 太 严格 而 难以 使 用 ， 
需要 放宽 条 件 。 

一 棵 AVL 树 是 其 每 个 节点 的 左 子 树 和 右 子 树 的 高 度 最 多 差 1 的 二 又 查找 树 ( 空 树 的 高 度 定 
义 为 -=1)。 在 图 4-29 中 , 左边 的 树 是 AVL 树 , 但 是 右边 的 树 不 是 。 每 一 个 节点 (在 其 节点 结构 
中 ) 保 留 高 度 信息 。 可 以 证 明 , 粗略 地 说 , 一 个 AVL 树 的 高 度 最 多 为 1. 44 log( N+2) -1.328， 
但 是 实际 上 的 高 度 只 略 大 于 log N。 作 为 例子 , 图 4-30 显示 了 一 棵 具有 最 少 节点 (143 ) 高 度 为 9 
的 AVL 这 棵 树 的 左 子 树 是 高 度 为 7 且 大 小 最 小 的 AVL 树 , 右 子 树 是 高 度 为 8 日 大 小 最 小 的 
AVL 树 。 它 告诉 我 们 , 在 高 度 为 h 的 AVL BB, 最 少 节点 数 S(h) 由 S(h)=S(h 一 1) +S(h -2) +1 给 
出 。 th 0, S(h) 21; h=1, S(h) 22, PRA S(h) 53 EWE HS Be UL IR OE, h e HE HR E: ri de 2) 
的 关于 AVL 树 的 高 度 的 界 。 


Fot © (5 
图 4-28 ”一 棵 坏 的 二 叉 树 。 只 要 求 在 图 4-29 两 棵 二 叉 查找 树 ， 只 有 
根 节点 平衡 是 不 够 的 左边 的 树 是 AVL 树 


因此 ,除去 可 能 的 插 人 外 (我 们 将 假设 懒惰 删除 ) , 所 有 的 树 操作 都 可 以 以 时 间 O(log N) 执 
行 。 当 进行 插 六 操作 时 ;我 们 需要 更 新 通 向 根 节点 路 径 上 那些 节点 的 所 有 平衡 信息 ,而 插入 操 
作 隐 含 着 困难 的 原因 在 于 , 插入 一 个 节点 可 能 破坏 AVL 树 的 特性 (例如 , 将 6 插入 到 图 4-29 中 
的 AVL 树 中 将 会 破坏 关键 字 为 8 的 节点 处 的 平衡 条 件 ) 。 如 果 发 生 这 种 情况 , 那么 就 要 在 考虑 
这 一 步 插入 完成 之 前 恢复 平衡 的 性 质 。 事 实 上 , 这 总 可 以 通过 对 树 进 行 简单 的 修正 来 做 到 , 我 
们 称 其 为 旋转 (rotation ) 。 

在 插入 以 后 , 只 有 那些 从 插入 点 到 根 节点 的 路 径 上 的 节点 的 平衡 可 能 被 改变 , 因为 只 有 这 
些 节 点 的 子 树 可 能 发 生变 化 。 当 我 们 沿 着 这 条 路 径 上 行 到 根 并 更 新 平衡 信息 时 , 可 以 发 现 一 个 
节点 , 它 的 新 平衡 破坏 了 AVL 条 件 。 我 们 将 指出 如 何在 第 一 个 这 样 的 节点 ( 即 最 深 的 节点 ) 重 
新 平衡 这 棵 树 , 并 证 明 这 一 重新 平衡 保证 整个 树 满足 AVL 性 质 。 

我 们 把 必须 重新 平衡 的 节点 叫 作 a。 由 于 任意 节点 最 多 有 两 个 儿子 , 因此 出 现 高 度 不 平衡 
就 需要 a 点 的 两 棵 子 树 的 高 度 差 2。 容易 看 出 , 这 种 不 平衡 可 能 出 现在 下 面 四 种 情况 中 : 





- 对 a 的 左 儿 子 的 左 子 树 进行 一 次 插入 。 
. 对 a 的 左 儿子 的 右 子 树 进行 一 次 插入 。 
- 对 a 的 右 儿子 的 左 子 树 进行 一 次 插入 。 
.对 a 的 右 儿 子 的 右 子 树 进行 一 次 插入 。 


4A U N =. 


D E 


图 4-30 高 度 为 9 的 最 小 的 AVL 树 


情形 1 和 4 是 关于 a 点 的 镜像 对 称 , 而 2 和 3 是 关于 o 点 的 镜像 对 称 。 因 此 , 理论 上 只 有 两 种 
情况 ,当然 从 编程 的 角度 来 看 还 是 四 种 情形 。 

第 一 种 情况 是 插入 发 生 在 “外 边 ”的 情况 ( 即 左 - 左 的 情况 或 右 - 右 的 情况 ) ,该 情况 通 
过 对 树 的 一 次 单 旋 转 (single rotation ) 而 完成 调整 。 第 二 种 情况 是 插入 发 生 在 “内 部 ”的 情形 
( 即 左 一 右 的 情况 或 右 - 左 的 情况 ), 该 情况 通过 稍微 复杂 些 的 双 旋 转 ( double rotation ) 来 处 理 。 
我 们 将 会 看 到 , 这 些 都 是 对 树 的 基本 操作 , 它们 多 次 用 在 一 些 平衡 树 算法 中 。 本 节 其 余部 分 将 
描述 这 些 旋 转 , 证 明 它 们 足以 保持 树 的 平衡 , 并 顺便 给 出 AVL 树 的 一 种 非 正式 的 实现 。 第 12 
章 将 描述 其 他 的 平衡 树 方法 , 这 些 方法 着 眼 于 AVL 树 的 更 仔细 的 实现 。 


4.4.1 单 旋转 @ E) 

K] 4-31 显示 了 单 旋转 如 何 调整 情形 1。 E) IA GC &) 
旋转 前 的 图 在 左边 , 而 旋转 后 的 图 在 右 。 A 入 L /\ 
边 。 让 我 们 来 分 析 具 体 的 做 法 。 节 点 k, A LN fs, Ha 
不 满足 AVL 平衡 性 质 , 因为 它 的 左 子 树 / \ 


比 右 子 树 深 2 层 ( 图 中 间 的 几 条 虚线 标示 RP aii 
树 的 各 层 ) 。 该 图 所 描述 的 情况 只 是 情形 1 RE TARDE ERM 
的 一 种 可 能 的 情况 , TERAZ DI k 满足 AVL 性 质 , 但 在 插入 之 后 这 种 性 质 被 破坏 了 。 子 树 E 
经 长 出 一 层 , 这 使 得 它 比 子 树 Z 深 出 2 层 。Y 不 可 能 与 新 X 在 同一 水 平 上 , 因为 那样 在 插入 
以 前 就 已 经 失去 平衡 了 ; Y 也 不 可 能 与 Z 在 同一 层 上 , 因为 那样 就 会 是 在 通 向 根 的 路 径 上 破 
IR AVL 平衡 条件 的 第 一 个 节点 。 

为 使 树 恢复 平衡 , 我 们 把 X 上 移 一 层 , 并 把 Z 下 移 一 层 。 注 意 , 此 时 实际 上 超出 了 AVL 性 质 
的 要 求 。 为 此 , 我 们 重新 安排 节点 以 形成 一 棵 等 价 的 树 , 如 图 4-31 的 第 二 部 分 所 示 。 抽 象 地 形容 
就 是 : 把 树 形象 地 看 成 是 柔软 灵活 的 , 抓 住 子 节 点 为 , 闭 上 你 的 双眼 , 使劲 摇动 它 , 在 重力 作用 下 ， 
k, 就 变 成 了 新 的 根 。 二 又 查找 树 的 性 质 告诉 我 们 , 在 原 树 中 k >k, 于 是 在 新 树 中 心 ZRT k 的 
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右 儿 子 , X AZ 仍然 分 别 是 ALE AA, 的 右 儿 子 。 子 树 Y 包 含 原 树 中 介 于 和 三 之 间 的 那 
些 节点 ， 可 以 将 它 放 在 新 树 中 请 的 左 儿 子 的 位 置 上 , 这 样 , 所 有 对 顺序 的 要 求 都 得 到 满足 。 

这 样 的 操作 只 需要 一 部 分 的 链 改变 , 结果 我 们 得 到 另外 一 棵 二 又 查找 树 ， 它 是 一 棵 AVL 
树 , 因为 X 向 上 移动 了 一 层 , 了 停 在 原来 的 水 平 上 , 而 Z FRE. k, Ak, 不 仅 满足 AVL 要 
R, 而 且 它 们 的 子 树 都 恰好 处 在 同一 高 度 上 。 不 仅 如 此 , 整个 树 的 新 高 度 恰恰 与 插入 前 原 树 的 
高 度 相 同 , 而 插入 操作 却 使 得 子 树 Ir £s DIC, 通 向 根 节 点 的 路 径 的 高 度 不 需要 进一步 的 
BE, 因而 也 不 需要 进一步 的 旋转 。 图 4-32 显示 了 在 将 6 插入 左边 原始 的 AVL 树 后 节点 8 便 
不 再 平衡 。 于 是 , 我 们 在 7 和 8 之 间 做 一 次 单 旋转 , 结果 得 到 右边 的 树 。 





图 4-32 插入 6 破坏 了 AVL 性质， 而 后 [4-33 单 旋转 修复 情形 4 
经 过 单 旋转 又 将 性 质 恢复 
正如 我 们 较 早 提 到 的 , 情形 4 代表 一 种 对 称 的 情形 。 图 4-33 指出 单 旋转 如 何 使 用 。 让 我 们 
演示 一 个 更 长 一 些 的 例子 。 假 设 从 初始 的 空 AVL 树 开始 插入 关键 字 3、2 和 1, 然后 依 序 插入 
4 ~7。 在 插入 关键 字 1 时 第 一 个 问题 出 现 了 , AVL 性 质 在 根 处 被 破坏 。 我 们 在 根 与 其 左 儿 子 之 
间 施 行 单 旋转 修正 这 个 问题 。 下 面 是 旋转 之 前 和 之 后 的 两 棵 树 : 


前 之 后 
图 中 虚线 连接 两 个 节点 , 它们 是 旋转 的 主体 。 下 面 我 们 插入 关键 字 为 4 的 节点 , 这 没有 问 
题 , 但 插入 5 就 破坏 了 在 节点 3 处 的 AVL TEE, 而 通过 单 旋转 又 将 其 修正 。 除 旋转 引起 的 局 部 
变化 外 , 编程 人 员 必 须 记 住 : 树 的 其 余部 分 必须 被 告知 该 变化 。 如 本 例 中 节点 2 的 右 儿 子 必须 
重新 设置 以 链接 到 4 来 代替 3。 这 一 点 很 容易 忘记 , 从 而 导致 树 被 破坏 (4 就 会 是 不 可 访问 的 )。 
(2) 


EL) (4) 


9 S O 
T. (S) 之 后 


下 面 我 们 插入 6。 这 在 根 节点 产生 一 个 平衡 问题 , 因为 它 的 左 子 树 高 度 是 0 而 右 子 树 高 度 
为 2。 因 此 我 们 在 根 处 在 2 和 4 之 间 实 施 一 次 单 旋转 。 


575 (4) 
€) — à G) 
O $9 qd O 6) 
(6) 
之 前 之 后 


旋转 的 结果 使 得 2 是 4 的 一 个 儿子 , 而 4 原来 的 左 子 树 变 成 节点 2 的 新 的 右 子 树 。 在 该 子 树 上 
的 每 一 个 关键 字 均 在 2 和 4 之 间 , 因此 这 个 变换 是 成 立 的 。 我 们 插入 的 下 一 个 关键 字 是 7, 它 导 
致 另外 的 旋转 : 





wit: 


之 前 之 后 
4.4.2 Wiese 
上 面 描述 的 算法 有 一 个 问题 ; 如 图 4-34 所 示 , 对 于 情形 2 和 3 上 面 的 做 法 无 效 。 问 题 在 于 
子 树 Y 太 深 , 单 旋 转 没有 减低 它 的 深度 。 解 决 这 个 问题 的 双 旋转 在 图 4-35 中 表 出 。 


© 3 © © 
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图 4-34 单 旋转 不 能 修复 情形 2 图 4-35 7c - 右 双 旋 转 修复 情形 2 
在 图 4-34 中 的 子 树 了 已 经 有 一 项 插入 其 中 , 这 个 事实 保证 它 是 非 空 的 。 因 此 , 我 们 可 以 假 
设 它 有 一 个 根 和 两 棵 子 树 。 于 是 , 我 们 可 以 把 整 棵 树 看 成 是 4 棵 子 树 由 3 个 节点 连结 。 如 图 所 
m. 恰好 树 8 或 树 C 中 有 一 棵 比 D 深 两 层 (除非 它们 都 是 空 的 ), 但 是 我 们 不 能 肯定 是 哪 一 棵 。 


事实 上 这 并 不 要 紧 , 在 图 4-35 中 BR C 都 被 画 成 比 D 低 1 地层。 


为 了 重新 平衡 , 我 们 看 到 , 不 能 再 把 用 作 根 了 , 而 图 4-34 Bros BITE k, Ak, 之 间 的 旋转 
又 解决 不 了 问题 , 唯一 的 选择 就 是 把 用 作 新 的 根 。 这 迫使 是 的 左 儿子 , 是 它 的 右 儿 
T. 从 而 完全 确定 了 这 四 棵 树 的 最 终 位 置 。 容 易 看 出 , 最 后 得 到 的 树 满足 AVL 树 的 性 质 , 与 单 
旋转 的 情形 一 样 , 我 们 也 把 树 的 高 度 恢复 到 插入 以 前 的 水 平 , 这 就 保证 所 有 的 重新 平衡 和 高 度 
更 新 是 完善 的 。 图 4-36 指出 , 对 称 情形 3 也 可 以 通过 双 旋 转 得 以 修正 。 在 这 两 种 情形 下 ,其 效 
果 与 先 在 o 的 儿子 和 孙子 之 间 旋 转 而 后 再 在 a 和 它 的 新 儿子 之 间 旋 转 的 效果 是 相同 的 。 
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图 4-36 47 - 左 双 旋 转 修复 情形 3 


我 们 继续 在 前 面 例子 的 基础 上 以 倒序 插入 关键 字 10 ~ 16, 接着 插入 8, 然后 再 插 人 9。 插 入 
16 容易 , 因为 它 并 不 破坏 平衡 性 质 , 但 是 插入 15 就 会 引起 在 节点 7 处 的 高 度 不 平衡 。 这 属于 情 
形 3, 需要 通过 一 次 右 - 左 双 旋转 来 解决 。 在 我 们 的 例子 中 , 这 个 右 - 左 双 旋 转 将 涉及 7、16 和 
15。 此 时 , k, 是 含有 项 7 的 节点 , by 是 含有 项 16 的 节点 , 而 是 含有 项 15 的 节点 。 子 树 4、B、 
C f$ D SEN. 
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下 面 我 们 插入 14, 它 也 需要 一 个 双 旋 转 。 此 时 修复 该 树 的 双 旋 转 还 是 右 - 左 双 旋转 , 它 将 
涉及 6、15 和 7。 在 这 种 情况 下 , k 是 含有 项 6 的 节点 , k 是 含有 项 7 的 节点 , 而 心 是 含有 项 15 
的 节点 。 子 树 4 的 根 在 项 为 5 的 节点 上 , TR 有 是 空子 树 , 它 是 项 7 的 节点 原先 的 左 儿 子 , F 
树 C 置 根 于 项 14 的 节点 上 , 最 后 , 子 树 D 的 根 在 项 为 16 的 节点 上 。 


(2) E o 


<k 
d oc 
G & 

之 前 D 


如 果 现 在 插入 13, 那么 在 根 处 就 会 产生 一 个 不 平衡 。 由 于 13 不 在 4 和 7 之 间 , 因此 我 们 知 
道 一 次 单 旋转 就 能 完成 修正 的 工作 。 








为 了 插入 11, 还 需要 进行 一 个 单 旋转 , 对 于 其 后 的 10 的 插入 也 需要 这 样 的 旋转 。 我 们 插入 
8 不 进行 旋转 , 这 样 就 建立 了 一 棵 近乎 理想 的 平衡 树 。 





最 后 , 我 们 插入 9 以 演示 双 旋 转 的 对 称 情形 。 注 意 , 9 引起 含有 10 的 节点 产生 不 平衡 。 由 
于 9 在 10 和 8 之 间 (8 在 10 通 向 9 的 路 径 上 是 节点 10 的 儿子 ), 因此 需要 进行 一 个 双 旋 转 , 我 
们 得 到 下 面 的 树 : 








现在 让 我 们 对 上 面 的 讨论 做 个 总 结 。 除 几 种 情形 外 ,编程 的 细节 是 相当 简单 的 。 为 将 项 是 
下 的 一 个 新 节点 插入 到 一 棵 AVL BET 了 中 去 , 我 们 递归 地 将 插入 到 了 的 相应 的 子 树 ( 称 为 Tir) 
Po WMR Ti 的 高 度 不 变 , BARA TER. AM, 如 果 在 7 了 中 出 现 高 度 不 平衡 , WRH X ART 
和 Tix 中 的 项 做 适当 的 单 旋转 或 双 旋 转 , 更 新 这 些 高 度 (并 解决 好 与 树 的 其 余部 分 的 链接 ) ， 从 
而 完成 插入 。 由 于 一 次 旋转 总 能 足以 解决 问题 , 因此 仔细 地 编写 出 来 的 非 递归 版 本 一 般 说 来 要 
比 递归 版 本 快 ， 但 是 在 现代 编译 器 上 ， 这 个 区 别 已 经 没有 过 去 那么 明显 。 然 而 , 要 想 把 非 递归 
程序 编写 正确 是 相当 困难 的 , 而 一 个 简单 的 递归 实现 却 是 容易 读 懂 的 。 

男 一 个 效率 问题 涉及 到 高 度 信息 的 存储 。 由 于 真正 需要 的 实际 上 就 是 子 树 高 度 的 差 , 而 它 一 
定 是 很 小 的 ， 所 以 如 果 我 们 真 的 想 试 着 降低 存储 的 话 , 可 用 两 个 二 进 制 位 (代表 +1、0、-1) 表 示 
这 个 差 。 这 样 将 避免 平衡 因子 的 重复 计算 , 但 是 却 丧 失 了 一 定 的 清晰 度 。 最 后 的 程序 多 多 少 少 要 
比 在 每 一 个 节点 存储 高 度 复杂 。 如 果 编 写 递归 程序 , 那么 速度 恐怕 不 是 主要 考虑 的 问题 。 此 时 ， 
通过 存储 平衡 因子 所 得 到 的 些微 速度 优势 很 难 抵消 清晰 度 和 相对 简洁 度 的 损失 。 不 仅 如 此 , 由 于 
大 部 分 机 器 会 把 它 对 齐 到 最 小 是 8 个 二 进 制 位 的 边界 , 因此 所 用 的 空间 量 不 可 能 有 任何 差别 。 一 个 8 
位 的 字 节 允许 我 们 存储 高 达 127 的 绝对 高 度 值 。 既 然 树 是 平衡 的 , 因此 空间 是 足够 的 ( 见 练习 ) 。 

有 了 上 面 的 讨论 ， 我 们 现在 已 准备 好 编写 AVL 树 的 一 些 例 程 。 不 过 , 这 里 我 们 只 展示 一 部 
分 代码 , 其 余 的 在 线 提供 。 首 先 , 我 们 需要 AvlNode 类 , 它 在 图 4-37 中 给 出 。 我 们 还 需要 一 个 
快速 的 方法 来 返回 节点 的 高 度 , 这 个 方法 必须 处 理 null 引用 的 麻烦 情形 。 该 程序 在 图 4-38 中 
给 出 。 基 本 的 插入 例 程 写 起 来 很 容易 ( 见 图 4-39) ， 只 要 在 最 后 加 一 行 调用 平衡 的 方法 即 可 ， 
该 平衡 的 方法 在 必要 时 应 用 一 个 单 旋转 或 双 旋 转 ， 更 新 高 度 ， 最 后 返回 结果 树 。 


private static class AvlNode<AnyType> 
{ 
i // Constructors 
AvlNode( AnyType theElement ) 
( this( theElement, null, null ); ) 


AviNode( AnyType theElement, AvlNode<AnyType> lt, AvlNode«AnyType» rt ) 


{ element = theElement; left = 1t; right = rt; height = 0; ) 


AnyType element; // The data in the node 
AvlNodecAnyType» left; // Left child 
Av1Node<AnyType> right; // Right child 

int height; // Height 





4-37 AVL 树 的 节点 声明 


对 于 图 4-40 中 的 那些 树 , 方法 rotatewithLeftchild 把 左边 的 树 变 成 右边 的 树 , 并 返 
回 对 新 根 的 引用 。 方 法 routateWithRightChild 是 对 称 的 。 程 序 在 图 4-41 中 表 出 。 
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/** 
* Internal method to insert into a subtree. 
* @param x the item to insert. 
* (param t the node that roots the subtree. 
* @return the new root of the subtree. 


[** 
* Return the height of node t, or -1, if null. 


*/ 
private int height( AvlNode<AnyType> t ) 


{ 
} 


return t == null ? -1 : t.height; 








图 4-38 计算 AVL 节点 的 高 度 的 方法 


private Av1Node<AnyType> insert( AnyType x，Av1Node<AnyType> t ) 


{ 


} 


if( t == null ) 
return new Av]Node<>( x, null, null ); 


int compareResult = x.compareTo( t.element ); 


if( compareResult < 0 ) 

t.left = insert( x, t.left ); 
else if( compareResult > 0 ) 

t.right = insert( x, t.right ); 
else 

; // Duplicate; do nothing 
return balance( t ) ; 


private static final int ALLOWED IMBALANCE = 1; 


// Assume t is either balanced or within one of being balanced 
private AvINodecAnyType» balance( Av]Node<AnyType> t ) 


{ 





if( t == null ) 
return t; 


if( height( t.left ) - height( t.right ) » ALLOWED IMBALANCE ) 
if( height( t.left.left ) »- height( t.left.right ) ) 
t = rotateWithLeftChild( t ); 
else 
t = doubleWithLeftChild( t ); 


else 
if( height( t.right ) - height( t.left ) » ALLOWED IMBALANCE ) 
if( height( t.right.right ) »- height( t.right.left ) ) 
t = rotateWithRightChild( t ); 
else 
t = doubleWithRightChild( t ); 


t.height = Math.max( height( t.left ), height( t.right ) ) + 1; 
return t; 


图 4-39 ”向 AVL 树 的 插入 例 程 
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* Rotate binary tree node with left child. 
* For AVL trees, this is a single rotation for case 1. 
* Update heights, then return new root. 


x/ E 
private Av1Node<AnyType> rotateWithLeftChild( Av1Node<AnyType> k2 ) 
{ 
AvlNode<AnyType> kl = k2.left; 
k2.left = kl.right; 
kl.right = k2; 
k2.height = Math.max( height( k2.left ), height( k2.right ) ) + 1; 
kl.height = Math.max( height( kl.left ), k2.height ) + 1; 
return kl; 


— ee s 
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图 4-41 执行 单 旋转 的 例 程 
类 似 地 ， 图 4-42 中 画 出 的 双 旋 转 可 用 图 4-43 中 给 出 的 代码 实现 。 
(ks) ka) 
a A A & 
AAA © Ji. ZEN L0 2% 
A LN 
图 4-42” 双 旋转 
/** 


* Double rotate binary tree node: first left child 

* with its right child; then node k3 with new left child. 

* For AVL trees, this is a double rotation for case 2. 

* Update heights, then return new root. 

*/ 

private Av]Node<AnyType> doubleWithLeftChild( AvlNode<AnyType> k3 ) 

{ 
k3.left = rotateWithRightChild( k3.left ); 
return rotateWithLeftChild( k3 ); 


1 
z 
3 
4 
5 
6 
7 
8 
9 
0 
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= = 





图 4-43 ”执行 双 旋 转 的 例 程 


由 于 二 又 查找 树 的 删除 一 般 比 插 和 人 更 复杂 ， 因 此 人 们 可 以 想到 AVL 树 的 删除 也 是 更 为 复 
杂 的 。 在 完美 世界 里 ， 人 们 可 能 期 望 图 4-25 中 给 出 的 删除 例 程 可 以 很 容易 修改 ， 只 要 像 在 插 
入 中 做 的 一 样 ， 把 最 后 一 行 改 成 返回 对 balance 方法 的 调用 就 好 了 。 这 就 会 得 到 图 4-44 里 的 
代码 。 这 种 修改 是 管用 的 ! 删除 可 能 造成 树 的 一 边 比 另 一 边 浅 两 个 层次 。 逐 个 情形 的 分 析 与 插 
人 引起 的 不 平衡 情形 是 类 似 的 ， 但 不 完全 一 样 。 例 如 图 4-31 中 的 情形 1， 在 这 里 对 应 树 2 的 一 
个 删除 (而 不 是 的 一 个 插入 ) ， 必 须要 额外 考虑 树 了 有 可 能 跟 树 工 一 样 深 的 情况 。 即 便 如 此 ， 
也 容易 看 出 旋转 能 令 这 种 情形 恢复 平衡 ， 并 且 图 4-33 中 的 情形 4 也 可 以 对 称 地 解决 。 因 此 在 
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图 4-39 中 balance 的 代码 里 ， 第 32 行 和 第 38 行 用 了 > = 而 不 是 > ， 就 是 为 了 保证 在 这 些 情 
形 下 用 的 是 单 旋转 而 不 是 双 旋 转 。 我 们 把 对 余下 情形 的 验证 留 作 练 习 。 





/** 

* Internal method to remove from a subtree. 

* @param x the item to remove. 

* @param t the node that roots the subtree. 

* @return the new root of the subtree. 

*/ 

private AvlNode<AnyType> remove( AnyType x, AvlNode«AnyType» t ) 
{ 


90 4| DAUA WHY 


if( t == null ) 
return t; // Item not found; do nothing 


int compareResult - x.compareTo( t.element ); 


if( compareResult « 0 ) 
t.left = remove( x, t.left ); 
else if( compareResult » 0 ) 
t.right = remove( x, t.right ); 
else if( t.left !- null && t.right != null ) // Two children 
{ 
t.element = findMin( t.right ).element; 
t.right = remove( t.element, t.right ); 
} 
else 
t= ( t.left != null ) ? t.left : t.right; 
return balance( t ); 





图 4-44 AVL 树 的 删除 


4.5 伸展 树 


现在 我 们 描述 一 种 相对 简单 的 数据 结构 , 叫 作 伸 展 树 ( splay tree), 它 保证 从 空 树 开始 连续 M 
次 对 树 的 操作 最 多 花费 OCM log N) 时 间 。 虽 然 这 种 保证 并 不 排除 任意 单 次 操作 花费 0( NN) 时 间 的 
可 能 , 而 且 这 样 的 界 也 不 如 每 次 操作 最 坏 情形 的 界 为 Oog N) 时 那么 强 , 但 是 实际 效果 却 是 一 样 
的 : 不 存在 坏 的 输入 序列 。 一 般 说 来 ,， 当 内 次 操作 的 序列 总 的 最 坏 情形 运行 时 间 为 
OC MCN) ) 时 , FRA TRUE E HY AEE ( amortized ) 运行 时 间 为 OCFCN) )。 因 此 , 一 棵 伸展 树 每 次 操作 
的 挫 还 代价 是 Oog N) 。 经 过 一 系列 的 操作 , 有 的 操作 可 能 花费 时 间 多 一 些 , 有 的 可 能 要 少 一 些 。 

伸展 树 基 于 这 样 的 事实 : 对 于 二 又 查找 树 来 说 , 每 次 操作 最 坏 情形 时 间 O(N) 并 不 坏 , 只 要 
它 相 对 不 常 发 生 就 行 。 任 何 一 次 访问 , 即使 花费 O(N) ,仍然 可 能 非常 快 。 二 又 查找 树 的 问题 
TET, 虽然 一 系列 访问 整体 都 是 坏 的 操作 有 可 能 发 生 , 但 是 很 罕见 。 此 时 ,累积 的 运行 时 间 很 
重要 。 具 有 最 坏 情 形 运 行 时 间 0(N) 但 保证 对 任意 MH 次 连续 操作 最 多 花费 OCM log N) 运 行 时 间 
的 查找 树 数据 结构 确实 可 以 令 人 满意 了 , 因为 不 存在 坏 的 操作 序列 。 

如 果 任 意 特 定 操作 可 以 有 最 坏 时 间 界 O CN) ,而 我 们 仍然 要 求 一 个 O(log N) 的 摊 还 时 间 界 ， 
那么 很 清楚 , 只 要 一 个 节点 被 访问 , 它 就 必须 被 移动 。 否 则 , 一 旦 发 现 一 个 深层 的 节点 , 我们 就 
有 可 能 不 断 对 它 进行 访问 。 如 果 这 个 节点 不 改变 位 置 , 而 每 次 访问 又 花费 OCN), 那么 M KV 
问 将 花费 OCM NN) 的 时 间 。 
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伸展 树 的 基本 想法 是 , 当 一 个 节点 被 访问 后 , 它 就 要 经 过 一 系列 AVL 树 的 旋转 被 推 到 根 
E. 注意 , 如 果 一 个 节点 很 深 , 那么 在 其 路 径 上 就 存在 许多 也 相对 较 深 的 节点 , 通过 重新 构造 
可 以 减少 对 所 有 这 些 节 点 的 进一步 访问 所 花费 的 时 间 。 因 此 , 如 果 节 点 过 深 , 那么 我 们 要 求 重 
新 构造 应 具有 平衡 这 棵 树 ( 到 某 种 程度 ) 的 作用 。 除 在 理论 上 给 出 好 的 时 间 界 外 ,这 种 方法 还 可 
能 有 实际 的 效用 , 因为 在 许多 应 用 中 当 一 个 节点 被 访问 时 , 它 很 可 能 不 久 再 被 访问 。 研 究 表明 ， 
这 种 情况 的 发 生 比 人 们 预想 的 要 频繁 得 多 。 另 外 , 伸展 树 还 不 要 求 保留 高 度 或 平衡 信息 ,因此 
它 在 某 种 程度 上 节省 空间 并 简化 代码 (特别 是 当 实 现 例 程 经 过 审慎 考虑 而 被 写 出 的 时 候 ) 。 
4.5.1. 一 个 简单 的 想法 (不 能 直接 使 用 ) 

实施 上 面 描述 的 重新 构造 的 一 种 方法 是 执行 单 旋转 , 从 底 向 上 进行 。 这 意味 着 我 们 将 在 访 
问 路 径 上 的 每 一 个 节点 和 它们 的 父 节 点 实施 旋转 。 作 为 例子 , 考虑 在 干 面 的 树 中 对 进行 一 次 


访问 (一 次 find) 之 后 所 发 生 的 情况 。 


虚线 是 访问 的 路 径 。 首 先 , RIIE k ee 次 单 旋 转 , 得 到 下 面 的 树 


m 


然后 , RATE k AA, 之 间 旋 转 , 得 到 下 一 棵 树 。 





此 后 ,再 实行 两 次 旋转 直到 到 达 树 根 。 
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这 些 旋转 的 效果 是 将 一 直 推 向 树 根 , 使 得 对 如 的 进一步 访问 很 容易 (暂时 的 )。 不 足 的 
是 它 把 男 外 一 个 节点 () 几 乎 推 各 和 后 以 前 那么 深 。 而 对 那个 节点 的 访问 又 将 把 另外 的 节点 
向 深 处 推进 , 如 此 等 等 。 虽然 这 个 策略 使 得 对 的 访问 花费 时 间 减 少 , 但 是 它 并 没有 明显 改善 
(原先 ) 访 问 路 径 上 其 他 节点 的 状况 。 事 实 上 可 以 证 明 , 使 用 这 种 策略 将 会 存在 一 系列 W 个 操 
作 共 需要 ACM - 和 N) 的 时 间 , 因此 这 个 想法 还 不 够 好 。 说 明 这 个 问题 最 简单 的 方法 是 考虑 向 初 
始 的 空 树 插入 关键 字 1，2，3，…，N 所 形成 的 树 ( 请 将 这 个 例子 算出 ) 。 由 此 得 到 一 棵 树 ， 这 
棵 树 只 由 一 些 左 儿子 构成 。 由 于 建立 这 棵 树 总 共 花 费时 间 为 0(N), 因此 这 未 必 就 有 多 坏 。 问 
题 在 于 访问 关键 字 为 1 的 节点 花费 N 个 单元 的 时 间 。 在 一 些 旋转 完成 以 后 ,对 关键 字 为 2 的 节 
点 的 一 次 访问 花费 N 个 单元 的 时 间 。 对 关键 字 为 3 的 节点 的 访问 花费 N -1 个 单元 时 间 ， 以 此 
类 推 。 依 序 访问 所 有 关键 字 的 总 时 间 是 N + 2i = Q(N )。 在 它们 都 被 访问 以 后 , 该 树 转变 回 
原始 状态 , 而 且 我 们 可 能 重复 这 个 访问 顺序 。 
4.5.2 展开 

展开 (splaying) 的 思路 类 似 于 上 面 介绍 的 旋转 的 想法 , 不 过 在 旋转 如 何 实施 上 我 们 稍微 有 
些 选择 的 余地 。 我 们 仍然 从 底部 向 上 沿 着 访问 路 径 旋 转 。 令 工 是 在 访问 路 径 上 的 一 个 ( 非 根 ) 
节点 ,我们 将 在 这 个 路 径 上 实施 旋转 操作 。 如 果 半 的 父 节 点 是 树 根 , 那么 只 要 旋转 YX 和 树 根 。 
这 就 是 沿 着 访问 路 径 上 的 最 后 的 旋转 = 否则, X 就 有 父亲 (P) 和 祖父 (6G)，, 存在 两 种 情况 以 及 对 
称 的 情形 要 考虑 。 第 一 种 情况 是 之 字形 (zig- zag) 情形 ( 见 图 4-45)。 这 里 , X 是 右 儿子 的 形式 ， 
已 是 左 儿子 的 形式 (反之 亦 然 ) 。 如 果 是 这 种 情况 , 那么 我 们 执行 一 次 就 像 AVL 双 旋 转 那样 的 双 
旋转 。 和 否则 , 出 现 男 一 种 一 字形 (zig-zig) 情 形 : X 和 PP 或 者 都 是 左 儿子 , 或 者 其 对 称 的 情形 , X 
和 PP 都 是 右 儿 子 。 在 这 种 情况 下 , 我 们 把 图 4-46 左边 的 树 变换 成 右边 的 树 。 


(G) (X) 
Gc ZN- AO © © @ 
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图 4-45 之 字形 (zig-zag) 情 形 图 4-46 一 字形 (zig-zig) 情 形 
作为 例子 , 考虑 来 自 最 后 的 例子 中 的 树 , X k, 执行 一 次 contains: 


asd S 


LN LN 


展开 的 第 一 步 是 在 ,显然 是 一 个 之 字形 ,因此 我 们 用 包 、k 和 后 执行 一 次 标准 的 AVL 双 旋 


转 。 得 到 如 下 的 树 。 
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在 的 下 一 步 展开 是 一 个 一 字形 , 因此 我 们 用 名 、 k Ak 做 一 字 形 旋转 ,得 到 最 后 的 树 。 
-— 
PA TP as a 
AN, 20\ NEN 
虽然 从 一 些小 例子 很 难看 出 来 ,但 是 展开 操作 不 仅 将 访问 的 节点 移动 到 根 处 , 而 且 还 把 访问 路 
径 上 的 大 部 分 节点 的 深度 大 致 碱 少 一 半 ( 某 些 浅 的 节点 最 多 向 下 推 后 两 层 ) 。 

为 了 看 出 展开 与 简单 旋转 的 差别 ,再 
来 考虑 将 1，2，3，…，MN 各 项 插入 到 初 
始 空 树 中 去 的 效果 。 如 前 所 述 可 知 共 花 
费 O(N) 时 间 , 并 产生 与 一 些 简单 旋转 结 
果 相 同 的 树 。 图 4-47 指出 在 项 为 1 的 节 
点 展开 的 结果 。 区 别 在 于 ,在 对 项 为 1 的 
节点 访问 (花费 V - 1 个 单元 的 时 间 ) 之 
后 , 对 项 为 2 的 节点 的 访问 只 花费 N/2 个 
时 间 单元 而 不 是 W -2 个 时 间 单元 ; 不 存 
在 像 以 前 那么 深层 的 节点 。 i he 

对 项 为 2 的 节点 的 访问 将 把 各 个 节点 带 到 距 根 N/A 的 深度 之 内 , 并且 如 此 进行 下 去 直到 深 
度 大 约 为 log NON =7 的 例子 太 小 , 不 能 很 好 地 看 清 这 种 效果 ) 。 图 4-48 ~ 图 4-56 显示 在 32 个 
节点 的 树 中 访问 项 1 ~9 的 结果 ,这 棵 树 最 初 只 含有 左 儿子 。 我 们 从 伸展 树 得 不 到 在 简单 旋转 
策略 中 常见 的 那 种 低 效率 的 坏 现象 (实际 上 , 这 个 例子 只 是 一 种 非常 好 的 情况 。 有 -个 相当 复 
杂 的 证 明 指出 ,对 于 这 个 例子 ,NN 次 访问 共 耗费 OCN) 的 时 间 ) 。 








图 4-48 将 全 部 由 左 儿子 构成 的 树 在 节点 1 展开 的 结果 
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图 4-52 将 前 面 的 树 在 节点 5 处 展开 
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图 4-56 将 前 面 的 树 在 节点 9 处 展开 


这 些 图 着 重 强 调 了 伸展 树 基本 的 和 关键 的 性 质 。 当 访问 路 径 长 而 导致 超出 正常 查找 时 间 的 
时 候 , 这 些 旋 转 将 对 未 来 的 操作 有 益 。 当 访问 耗 时 很 少 的 时 候 , 这 些 旋转 则 不 那么 有 益 甚至 有 
害 。 极 端的 情形 是 经 过 若干 插 人 而 形成 的 初始 树 。 所 有 的 插入 都 是 导致 坏 的 初始 树 的 花费 常数 
时 间 的 操作 。 此 时 , 我 们 会 得 到 一 棵 很 差 的 树 , 但 是 运行 却 比 预计 的 快 , 从 而 总 的 较 少 运行 时 
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间 补 偿 了 损失 。 这 样 ,少数 真正 麻烦 的 访问 却 留 给 我 们 一 棵 几乎 是 平衡 的 树 , 其 代价 是 必须 返 
还 某 些 已 经 省 下 的 时 间 。 在 第 11 章 我 们 将 证 明 的 主要 定理 指出 , 平均 每 个 操作 决 不 会 落后 0 
(log NW) 这 个 时 间 : 我 们 总 是 遵守 这 个 时 间 , 即使 偶尔 有 些 坏 的 操作 。 

可 以 通过 访问 要 被 删除 的 节点 来 执行 删除 操作 。 这 种 操作 将 节点 上 推 到 根 处 。 如 果 删 除 该 
节点 ， 则 得 到 两 棵 子 树 T, 和 Ti( 左 子 树 和 右 子 树 )。 如 果 我 们 找到 7, 中 的 最 大 的 元 素 ( 这 很 容 
D), 那么 这 个 元 素 就 被 旋转 到 T, 的 根 下 ,而 此 时 将 有 一 个 没有 右 儿子 的 根 。 我 们 可 以 使 7 
为 右 儿 子 从 而 完成 删除 。 

对 伸展 树 的 分 析 很 困难 ,因为 必须 要 考虑 树 的 经 常 变 化 的 结构 。 另 一 方面 , 伸展 树 的 编程 
要 比 AVL 树 简单 得 多 , 这 是 因为 要 考虑 的 情形 少 并 且 不 需要 保留 平衡 信息 。 一 些 实际 经 验 指 
th, 在 实践 中 它 可 以 转化 成 更 快 的 程序 代码 , 不 过 这 种 状况 离 完善 还 很 远 。 最 后 , 我 们 指出 , 伸 
展 树 有 几 种 变化 , 它们 在 实践 中 甚至 运行 得 更 好 。 有 一 种 变化 在 第 12 章 中 已 被 完全 编 成 程序 。 


4.6 再 探 树 的 遍历 


由 于 二 又 查找 树 中 对 信息 进行 的 排序 ,因而 按照 排序 的 顺序 列 出 所 有 的 项 很 简单 ， 图 4-57 
中 的 递归 方法 进行 的 就 是 这 项 工作 。 


/** 
* Print the tree contents in sorted order. 
*/ 
public void printTree( ) 
{ 
if( isEmpty( ) ) 
System.out.println( "Empty tree" ); 
else 
printTree( root ); 


1 
2 
3 
4 
3 
6 
7 
8 





12 [** 

13 * Internal method to print a subtree in sorted order. 
i4 * @param t the node that roots the subtree. 
15 x/ 

16 private void printTree( BinaryNode<AnyType> t ) 
17 ( 

18 if( t != null ) 

19 { 

20 printTree( t.left ); 

21 System.out.println( t.element ); 

22 i printTree( t.right ); 

23 } 

24 } 








B 4-57 FMF ST EDM Ae HORE BY Bi 


PE TERE], 该 方法 能 够 解决 将 项 排序 列 出 的 问题 。 正 如 我 们 前 面 看 到 的 , GS HF 
树 的 时 候 则 称 为 中 序 遍 历 ( 由 于 它 依 序列 出 了 各 项 , 因此 是 有 意义 的 )。 一 个 中 序 遍 历 的 一 般 方 
法 是 首先 处 理 左 子 树 , 然后 是 当前 的 节点 , 最 后 处 理 右 子 树 。 这 个 算法 的 有 趣 部 分 除 它 简单 的 
特性 外 , 还 在 于 其 总 的 运行 时 间 是 O(N) 。 这 是 因为 在 树 的 每 一 个 节点 处 进行 的 工作 是 常数 时 
间 的 。 每 一 个 节点 访问 一 次 , 而 在 每 一 个 节点 进行 的 工作 是 检测 是 否 null、 建 立 两 个 方法 调 
用 、 并 执行 println。 由 于 在 每 个 节点 的 工作 花费 常数 时 间 以 及 总 共用 个 节点 , 因此 运行 时 
间 为 0(N)。 
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有 时 我 们 需要 先 处 理 两 棵 子 树 然后 才能 处 理 当前 节点 。 例 如 , 为 了 计算 一 个 节点 的 高 度 ， 
首先 需要 知道 它 的 子 树 的 高 度 。 图 4-58 中 的 程序 就 是 计算 高 度 的 。 由 于 检查 一 些 特殊 的 情况 
总 是 有 益 的 一 一 当 涉及 递归 时 尤其 重要 , 因此 要 注意 这 个 例 程 声明 树叶 的 高 度 为 零 , 这 是 正确 
的 。 这 种 一 般 的 遍历 顺序 叫 作 后 序 遍历 , 我 们 在 前 面 也 见 到 过 。 因 为 在 每 个 节点 的 工作 花费 常 
数 时 间 , 所 以 总 的 运行 时 间 也 是 O(N) 。 


/** 
* Internal method to compute height of a subtree. 
* (param t the node that roots the subtree. 
*/ 
private int height( BinaryNode<AnyType> t ) 
{ 
if( t == null ) 
return -1; 
else 
return 1 * Math.max( height( t.left ), height( t.right ) ); 


1 
2 
3 
4 
5 
6 
7 
8 
9 
0 
1 





1 
1 


图 4-58 ”使 用 后 序 遍 历 计 算 树 的 高 度 的 例 程 


我 们 见 过 的 第 三 种 常用 的 遍历 格式 为 先 序 遍历 ( preorder traversal) 。 这 里 ,当前 节点 在 其 儿 
子 节点 之 前 处 理 。 这 种 遍历 是 有 用 的 。 比 如 , 如 果 要 想 用 其 深度 标记 每 一 个 节点 , 那么 这 种 遍 
历 就 会 用 到 。 

所 有 这 些 例 程 有 一 个 共同 的 想法 , 即 首 先 处 理 null 的 情形 , 然后 才 是 其 余 的 工作 。 注 意 ， 
此 处 缺少 一 些 附 加 的 变量 。 这 些 例 程 仅仅 传递 对 作为 子 树 的 根 的 节点 的 引用 , 并 没有 声明 或 是 
传递 任何 附加 的 变量 。 程 序 越 紧凑 , 一 些 轴 蠢 的 错误 出 现 的 可 能 就 越 少 。 第 四 种 遍历 用 得 很 
少 , 叫 作 层 序 遍历 (level order traversal) , 我 们 以 前 尚未 见 到 过 。 在 层 序 遍历 中 , 所 有 深度 为 a 
的 节点 要 在 深度 a+1 的 节点 之 前 进行 处 理 。 层 序 遍 历 与 其 他 类 型 的 遍历 不 同 的 地 方 在 于 它 不 
是 递归 地 执行 的 ; 它 用 到 队列 ， 而 不 使 用 递归 所 默 示 的 栈 。 


4.7 Bt 


迄今 为 止 , 我 们 始终 假设 可 以 把 整个 数据 结构 存储 到 计算 机 的 主 存 中 。 可 是 , 如 果 数 据 更 
多 装 不 下 主 存 , 那么 这 就 意味 着 必须 把 数据 结构 放 到 磁盘 上 。 此 时 , 因为 大 0 模型 不 再 适用 ， 
所 以 导致 游戏 规则 发 生 了 变化 。 

问题 在 于 , 大 0 分 析 假 设 所 有 的 操作 耗 时 都 是 相等 的 。 然 而 , 现在 这 种 假设 就 不 合适 了 ， 
特别 是 涉及 磁盘 VO 的 时 候 。 例 如 , 一 台 500 - MIPS 的 机 器 可 能 每 秒 执行 5 亿 条 指令 。 这 是 相 
当 快 的 ,主要 是 因为 速度 主要 依赖 于 电 的 特性 。 另 一 方面 , 磁盘 操作 是 机 械 运 动 , 它 的 速度 主 
要 依赖 于 转动 磁盘 和 移动 磁头 的 时 间 。 许 多 磁盘 以 7200RPM 旋转 。 即 1 分 钟 转 7200 转 ; 因此 ， 
1 转 占 用 1/120 fb, 或 即 8.3 毫秒。 平均 可 以 认为 磁盘 转 到 一 半 的 时 候 发 现 我 们 要 寻找 的 信息 ， 
但 这 又 被 移动 磁盘 磁头 的 时 间 抵 消 , 因此 我 们 得 到 访问 时 间 为 8. 3 毫秒 (这 是 非常 宽松 的 估计 ; 
9 ~11 毫秒 的 访问 时 间 更 为 普通 )。 因 此 , 每 秒 大 约 可 以 进行 120 次 磁盘 访问 。 若 不 和 处 理 器 的 
速度 比较 , 那么 这 听 起 来 还 是 相当 不 错 的 。 可 是 考虑 到 处 理 器 的 速度 , 5 亿 条 指令 却 花 费 相当 
于 120 次 磁盘 访问 的 时 间 。 换 句 话 说 , 一 次 磁盘 访问 的 价值 大 约 是 40 万 条 指令 。 当 然 , 这 里 每 
一 个 数据 都 是 粗略 的 计算 , 不 过 相对 速度 还 是 相当 清楚 的 : 磁盘 访问 的 代价 太 高 了 。 不 仅 如 此 ， 
处 理 器 的 速度 还 在 以 比 磁盘 速度 快 得 多 的 速度 增长 (增长 相当 快 的 是 磁盘 容量 的 大 小 ) 。 因 此 ， 
为 了 节省 一 次 磁盘 访问 , 我 们 愿意 进行 大 量 的 计算 。 几 乎 在 所 有 的 情况 下 , 控制 运行 时 间 的 都 
是 磁盘 访问 的 次 数 。 于 是 , 如 果 把 磁盘 访问 次 数 减少 一 半 , 那么 运行 时 间 也 将 减 半 。 

在 磁盘 上 ,典型 的 查找 树 执行 如 下 : 设想 要 访问 佛罗里达 州 公民 的 驾驶 记录 。 假 设 有 1 千 
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万 项 , 每 一 个 关键 字 是 32 字 节 (代表 一 个 名 字 ) , 而 一 个 记录 是 256 个 字 节 。 假 设 这 些 数据 不 能 
都 装 入 主 存 , 而 我 们 是 正在 使 用 系统 的 20 个 用 户 中 的 一 个 (因此 有 1/20 的 资源 ) 。 这 样 , 在 1 
秒 内 , 我 们 可 以 执行 2500 万 次 指令 , 或 者 执行 6 次 磁盘 访问 。 

不 平衡 的 二 叉 查 找 树 是 一 个 灾难 。 在 最 坏 情 形 下 它 具 有 线性 的 深度 , 从 而 可 能 需要 1 PT 
磁盘 访问 。 平 均 来 看 , 一 次 成 功 的 查找 可 能 需要 1.38 log N 次 磁盘 访问 , 由 于 log 10 000 000=24， 
因此 平均 一 次 查找 需要 32 次 磁盘 访问 , 或 5 秒 的 时 间 。 在 一 棵 典型 的 随机 构造 的 树 中 , 我 们 预 
料 会 有 一 些 节 点 的 深度 要 深 3 fis 它们 需要 大 约 100 次 磁盘 访问 , 或 16 秒 的 时 间 。AVL 树 多 少 
要 好 一 些 。1. 44 log N 的 最 坏 情 形 不 可 能 发 生 , 典型 的 情形 是 非常 接近 于 log N。 这 样 , 一 棵 
AVL 树 平均 将 使 用 大 约 25 次 磁盘 访问 , 需要 的 时 间 是 4 秒 。 

我 们 想 要 把 磁盘 访问 次 数 减 小 到 一 个 非常 小 的 常数 , 比如 3 或 4; 而 且 我 们 愿意 写 一 个 复杂 
的 程序 来 做 这 件 事 , 因为 在 合理 情况 下 机 器 指令 基本 上 是 不 占 时 间 的 。 由 于 典型 的 AVL 树 接近 
到 最 优 的 高 度 , 因此 应 该 清楚 的 是 , 二 又 查找 树 是 不 可 行 的 。 使 用 二 又 查 找 树 我 们 不 能 行进 到 
{KF log N。 解 法 直觉 上 看 是 简单 的 : 如 果 有 更 多 的 分 支 ,那么 就 有 更 少 的 高 度 。 这 样 , 31 个 节 
点 的 理想 二 又 树 ( perfect binary tree) 有 5 JZ, 而 31 个 节点 的 5 又 树 则 只 有 3 层 , 如 图 4-59 所 示 。 
— FRM 又 查找 树 (M-ary search tree) 可 以 有 MM 路 分 支 。 随 着 分 支 增加 , 树 的 深度 在 减少 。 一 要 
ee binary tree) 的 高 度 大 约 为 log, N, 而 一 棵 完全 M 又 树 ( complete M-ary tree) 
的 高 度 大 约 是 logy N 


图 4-59 31 个 节点 的 5 叉 树 只 有 3 层 


我 们 可 以 以 与 建立 二 叉 查 找 树 大 致 相同 的 方式 建立 M 又 查 找 树 。 在 二 又 查找 树 中 , 需要 一 
个 关键 字 来 决定 两 个 分 支 到 底 取 用 哪个 分 支 ; 而 在 M 又 查找 树 中 需要 MI 个 关键 字 来 决定 选取 
哪个 分 支 。 为 使 这 种 方案 在 最 坏 的 情形 下 有 效 , 需要 保证 M 又 查找 树 以 某 种 方式 得 到 平衡 。 否 
则 , 像 二 叉 查 找 树 , 它 可 能 退化 成 一 个 链表 。 实 际 上 , 我 们 甚至 想 要 更 加 限制 性 的 平衡 条 件 , 即 
不 想 要 M 又 查找 树 退 化 到 甚至 是 二 又 查找 树 ， 因 为 那 时 我 们 又 将 无 法 摆脱 log N 次 访问 了 。 

实现 这 种 想法 的 一 种 方法 是 使 用 B 树 。 这 里 描述 基本 的 B 树 =。 许多 的 变种 和 改进 都 是 可 
能 的 , 但 实现 起 来 多 少 要 复杂 些 , 因为 有 相当 多 的 情形 需要 考虑 。 不 过 , 容易 看 到 , 原则 上 B RI 
保证 只 有 少数 的 磁盘 访问 。 

阶 为 W 的 B 树 是 一 棵 具有 下 列 特 性 的 树 ” : 

1. 数据 项 存储 在 树叶 上 。 

2. 非 叶 节点 存储 直到 M - 1 个 关键 字 以 指示 搜索 的 方向 ; 关键 字 i 代表 子 树 i+1 中 的 最 小 
的 关键 字 。 

3. 树 的 根 或 者 是 一 片 树叶 , 或 者 其 儿子 数 在 2 Al M 之 间 。 

4. 除根 外 , 所 有 非 树叶 节点 的 儿子 数 在 | MA 2 | 和 以 之 间 。 

s. 所 有 的 树叶 都 在 相同 的 深度 上 并 有 [LA 2 1 和 工 之 间 个 数据 项 ,上 的 确定 稍 后 描述 。 

图 4-60 显示 5 BF B 树 的 一 个 例子 。 注 意 , 所 有 的 非 叶 节 点 的 儿子 数 都 在 3 和 5 之 间 ( 从 而 
有 2 到 4 个 关键 字 ) ; 根 可 能 只 有 两 个 儿子 。 这 里 , 我 们 有 上 虐 =5( 在 这 个 例子 中 L 和 以 恰好 是 相 


O 这 里 所 描述 的 是 通常 称 为 B* 树 的 树 。 
© 法 则 3 和 5 对 于 前 了 次 插 人 必须 要 放宽 。 
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同 的 , (ik RAE). HIT LES, 因此 每 片 树叶 有 3 到 5 个 数据 项 。 要求 节 点 半 满 将 保证 
B 树 不 致 退化 成 简单 的 二 又 树 。 虽 然 存在 改变 该 结构 的 各 种 B 树 的 定义 , 但 大 部 分 在 一 些 次 要 
的 细节 上 变化 , 而 我 们 这 个 定义 是 流行 的 形式 之 一 。 


中 sisllz6llssj 
2 (8) [18] (26 
A 
RE 


每 个 节点 代表 一 个 磁盘 区 块 , 于 是 我 们 根据 所 存储 的 项 的 大 小 选择 M 和 ZL。 例如 ,， 设 一 个 
区 块 能 容纳 8192 字 节 。 在 上 面 的 佛罗里达 例子 中 , 每 个 关键 字 使 用 32 个 字 节 。 在 一 棵 1 Br 
B 树 中 , AM-1 个 关键 字 , 总 数 为 32M -32 FH, 再 加 上 M 个 分 支 。 由 于 每 个 分 支 基本 上 都 
是 另外 的 一 些 磁盘 区 块 , 因此 可 以 假设 一 个 分 支 是 4 个 字 节 。 这 样 , 这 些 分 支 共 用 4M 个 字 节 。 
一 个 非 叶 节点 总 的 内 存 需 求 为 36M -32 个 字 节 。 使 得 不 超过 8192 字 节 的 M 的 最 大 值 是 228。 
因此 , 我 们 选择 M = 228。 由 于 每 个 数据 记录 是 256 字 节 , 因此 可 以 把 32 个 记录 装 人 一 个 区 块 
中 。 于 是 , 我 们 选择 =32。 这 样 就 保证 每 片 树叶 有 16 到 32 个 数据 记录 以 及 每 个 内 部 节点 ( 除 
根 外 ) 至 少 以 114 种 方式 分 义 。 由 于 有 1 千 万 个 记录 , 因此 至 多 存在 625 000 片 树叶 。 由 此 得 
Al, 在 最 坏 情形 下 树叶 将 在 第 4 层 上 。 更 具体 地 说 , 最 坏 情 形 的 访问 次 数 近似 地 由 log, N 给 
出 , 这 个 数 可 以 有 1 的 误差 (例如 , 根 和 下 一 层 可 以 存放 在 主 存 中 , 使 得 经 过 长 时 间 运 行 后 磁盘 
访问 将 只 对 第 3 层 或 更 深层 是 需要 的 )。 

剩 下 的 问题 是 如 何 向 B 树 添加 项 和 从 B 树 删除 项 ; 下 面 将 概述 所 涉及 的 想法 。 注 意 , 许多 
论题 以 前 见 到 过 。 

我 们 首先 考查 插入 。 设 想 要 把 S7 插入 到 图 4-60 的 B 树 中 。 沿 树 向 下 查找 揭示 出 它 不 在 树 中。 
此 时 我 们 把 它 作为 第 5 项 添加 到 树叶 中 。 注 意 我 们 可 能 要 为 此 重新 组 织 该 树叶 上 的 所 有 数据 。 然 
而 , 与 磁盘 访问 相 比 (在 这 种 情况 下 它 还 包含 一 次 磁盘 写 ), 这 项 操作 的 开销 可 以 忽略 不 计 。 

当然 , 这 是 相对 简单 的 , 因为 该 树叶 还 没有 被 装 满 。 设 现在 要 插入 55。 图 4-61 显示 一 个 问 
ii. 55 想 要 插入 其 中 的 那 片 树叶 已 经 满 了 。 不 过 解法 却 不 复杂 : 由 于 我 们 现在 有 L+1 项 , 因此 
把 它们 分 成 两 片 树叶 , 这 两 片 树叶 保证 都 有 所 需要 的 记录 的 最 小 个 数 。 我 们 形成 两 片 树叶 , 每 
叶 3 项 。 写 这 两 片 树叶 需要 2 次 磁盘 访问 , 更 新 它们 的 父 节点 需要 第 3 次 磁盘 访问 。 注 意 , 在 
父 节 点 中 关键 字 和 分 支 均 发 生 了 变化 , 但 是 这 种 变化 是 以 容易 计算 的 受 控 的 方式 处 理 的。 最 后 
得 到 的 B 树 在 图 4-62 中 给 出 。 虽 然 分 裂 节点 是 耗 时 的 ,因为 它 至 少 需要 2 次 附加 的 磁盘 写 , 但 
它 相对 很 少 发 生 。 例 如 ,如果 工 是 32, 那么 当 节 点 被 分 裂 时 , 具有 16 和 17 项 的 两 片 树叶 分 别 
被 建立 。 对 于 有 17 项 的 那 片 树叶 , 我 们 可 以 再 执行 15 次 插入 而 不 用 另外 的 分 裂 。 换 名 话说， 
对 于 每 次 分 裂 , 大 致 存在 L/2 次 非 分 裂 的 插入 。 











图 4-60 Spp BR 











图 4-61 将 57 插入 到 图 4-60 的 树 中 后 的 B 树 
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图 4-62 将 55 插入 到 图 4-61 的 B 树 中 引起 分 裂 成 两 片 树 叶 


前 面 例子 中 的 节点 分 裂 之 所 以 行 得 通 是 因为 其 父 节点 的 儿子 个 数 尚 未 满员 。 可 是 ， 如果 满 
员 了 又 会 怎样 呢 ? 例如 , 假设 我 们 想 要 把 40 插入 到 图 4-62 的 B 树 中 。 此 时 必须 把 包含 关键 字 
35 到 39 而 现在 又 要 包含 40 的 树叶 分 裂 成 2 片 树叶 。 但 是 这 将 使 父 节点 有 6 个 儿子 , 可 是 它 只 
能 有 5 个 儿子 。 因 此 , 解法 就 要 分 裂 这 个 父 节 点 。 结 果 在 图 4-63 中 给 出 。 当 父 节 点 被 分 裂 时 ， 
必须 更 新 那些 关键 字 以 及 还 有 父 节 点 的 父亲 的 值 , 这 样 就 招致 额外 的 两 次 磁盘 写 ( 从 而 这 次 插 
入 花费 5 次 磁盘 写 ) 。 然 而 , 虽然 由 于 有 大 量 的 情况 要 考虑 而 使 得 程序 确实 不 那么 简单 , 但 是 这 
些 关 键 字 还 是 以 受 控 的 方式 变化 。 
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4-63 把 40 插入 到 图 4-62 的 B 树 中 引起 树叶 被 分 裂 成 两 片 然后 又 造成 父 节 点 的 分 裂 


正如 这 里 的 情形 所 示 , 当 一 个 非 叶 节点 分 裂 时 , 它 的 父 节点 得 到 了 一 个 儿子 。 如 果 父 节点 的 
儿子 个 数 已 经 达到 规定 的 限度 怎么 办 呢 ? 在 这 种 情况 下 , 继续 沿 树 向 上 分 裂 节 点 直到 找到 一 个 不 
需要 再 分 裂 的 父 节点 , 或 者 到 达 树 根 。 如 果 分 裂 树 根 , 那么 我 们 就 得 到 两 个 树 根 。 显 然 这 是 不 可 
接受 的 , 但 我 们 可 以 建立 一 个 新 的 根 , 这 个 根 以 分 裂 得 到 的 两 个 树 根 作为 它 的 两 个 儿子 。 这 就 是 
为 什么 准许 树 根 可 以 最 少 有 两 个 儿子 的 特权 的 原因 。 这 也 是 B 树 增加 高 度 的 唯一 方式 。 不 用 说 ， 
一 路 向 上 分 裂 直到 根 的 情况 是 一 种 特别 少见 的 异常 事件 , 因为 一 棵 具有 4 层 的 树 意味 着 在 整个 插 
入 序列 中 已 经 被 分 裂 了 3 次 (假设 没有 删除 发 生 ) 。 事 实 上 , 任何 非 叶 节点 的 分 裂 也 是 相当 少见 的 。 

还 有 其 他 一 些 方法 处 理 儿 子 过 多 的 情况 。 一 种 方法 是 在 相 邻 节 点 有 空间 时 把 一 个 儿子 交 给 
该 邻 节点 领养 。 例 如 , 为 了 把 29 插入 到 图 4-63 的 B 树 中 , 可 以 把 32 移 到 下 一 片 树 叶 而 腾 出 一 
个 空间 。 这 种 方法 要 求 对 父 节点 进行 修改 , 因为 有 些 关 键 字 受 到 了 影响 。 然 而 , 它 趋向 于 使 得 
Ti ENS, 从 而 在 长 时 间 运行 申 节 省 空间 。 

我 们 可 以 通过 查找 要 删除 的 项 并 在 找到 后 删除 它 来 执行 删除 操作 。 问 题 在 于 , 如 果 被 删 元 
所 在 的 树叶 的 数据 项 数 已 经 是 最 小 值 , 那么 删除 后 它 的 项 数 就 低 于 最 小 值 了 。 我 们 可 以 通过 在 
邻 节点 本 身 没有 达到 最 小 值 时 领养 一 个 邻 项 来 矫正 这 种 状况 。 如 果 相 邻 结 点 已 经 达到 最 小 值 ， 
那么 可 以 与 该 相 邻 节点 联合 以 形成 一 片 满 叶 。 可 是 , 这 意味 着 其 父 节 点 失去 一 个 儿子 。 如 果 失 
去 儿子 的 结果 又 引起 父 节点 的 儿子 数 低 于 最 小 值 , 那么 我 们 使 用 相同 的 策略 继续 进行 。 这 个 过 
程 可 以 一 直上 行 到 根 。 根 不 可 能 只 有 一 个 儿子 (要 是 允许 根 有 一 个 儿子 那 可 就 思春 了 ) 。 如 果 
这 个 领养 过 程 的 结果 使 得 根 只 剩 下 一 个 儿子 , 那么 删除 该 根 并 让 它 的 这 个 儿子 作为 树 的 新 根 。 
这 是 B 树 降低 高 度 的 唯一 的 方式 。 例 如 , 假设 我 们 想 要 从 图 4-63 的 B 树 中 删除 99。 由 于 那 片 
树叶 只 有 两 项 而 它 的 邻居 已 经 是 最 小 值 3 项 了 , 因此 我 们 把 这 些 项 合并 成 有 5 项 的 一 片 新 的 树 
叶 。 结 果 , 它们 的 父 节 点 只 有 两 个 儿子 了 。 这 时 该 父 节 点 可 以 从 它 的 邻 节点 领养 , 因为 邻 节点 
有 4 个 儿子 。 领 养 的 结果 使 得 双方 都 有 3 个 儿子 , 结果 如 图 4-64 所 示 。 
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图 4-64 在 从 图 4-63 的 B 树 中 删除 99 后 的 B 树 


4.8 标准 库 中 的 集合 与 映射 


在 第 3 章 中 讨论 过 的 List 容器 即 ArrayList Al LinkedList 用 于 查找 效率 很 低 。 因 
It, Collections API 提供 了 两 个 附加 容器 Set 和 Map, 它们 对 诸如 插入 、 删 除 和 查找 等 基本 操作 
提供 有 效 的 实现 。 

4.8.1 KF set 接口 

Set 接口 代表 不 允许 重复 元 的 Collections 由 接口 Sorteaset 给 出 的 一 种 特殊 类 型 的 
Set 保证 其 中 的 各 项 处 于 有 序 的 状态 。 因 为 一 个 Set IS-A Collection, 所 以 用 于 访问 继承 
Collection 的 List 的 项 的 方法 也 对 Set 有 效 。 图 3-6 中 描述 的 print 方法 如 果 传 送 一 个 Set 
也 将 会 正常 工作 。 

由 Set 所 要 求 的 一 些 独特 的 操作 是 一 些 插入 、 删除 以 及 (有 效 地 ) 执 行 基本 查找 的 能 力 。 对 于 
Set, add 方法 如 果 执 行 成 功 则 返回 true, 否则 返回 false, 因为 被 添加 的 项 已 经 存在 。 保 持 各 
项 以 有 序 状态 的 Set 的 实现 是 TreeSet。TreeSet 类 的 基本 操作 花费 对 数 最 坏 情 形 时 间 。 

默认 情况 下 ,排序 假设 Treeset 中 的 项 实现 Comparable 接口 。 另 一 种 排序 可 以 通过 用 
Comparator 实例 化 Treeset 来 确定 。 例 如 , 我 们 可 以 创建 一 个 存储 string 对 象 的 
TreeSet, 通过 使 用 图 1-18 中 编写 的 CaseInsensitiveCompare 函数 对 象 忽略 大 小 写 。 下 
面 的 代码 中 ,Set s 大 小 为 1。 

Set<String> s = new TreeSet<>( new CaseInsensitiveCompare( ) ); 


s.add( "Hello" ); s.add( "Hello" ); 
System.out.println( "The size is: " * s.size( ) ); 


4.8.2 关于 Map 接口 

Map 是 一 个 接口 , 代表 由 关键 字 以 及 它们 的 值 组 成 的 一 些 项 的 集合 。 关 键 字 必 须 是 唯一 
的 , 但 是 若干 关键 字 可 以 映射 到 一 些 相同 的 值 。 因 此 , 值 不 必 是 唯一 的 。 在 SortedMap 接口 
中 , 映射 中 的 关键 字 保 持 逻 辑 上 有 序 状 态 。SortedMap 接口 的 一 种 实现 是 TreeMap 类 。Map 
的 基本 操作 包括 诸如 isEmpty、clear、size 等 方法 , 而 且 最 重要 的 是 包含 下 列 方法 : 


boolean containsKey( KeyType key ) 
ValueType get( KeyType key ) 
ValueType put( KeyType key, ValueType value ) 


get 返回 Map 中 与 key 相关 的 值 , 或 当 key 不 存在 时 返回 null, WREE Map 中 不 存在 
null fA, 那么 由 get 返回 的 值 可 以 用 来 确定 key 是 否 在 Map 中 。 然 而 , 如 果 存 在 null fA, 
那么 必须 使 用 containsKey。 方法 put 把 关键 字 AANA Map H, 或 者 返回 null, 或 者 返 
回 与 key 相 联 系 的 老 值 。 

通过 一 个 Map 进行 迭代 要 比 Collection 复杂 , 因为 Map 不 提供 和 迭代 器 ,而 是 提供 3 种 
方法 , 将 Map 对 象 的 视图 作为 Collection 对 象 返回 。 由 于 这 些 视图 本 身 就 是 collection, 
因此 它们 可 以 被 迭代 。 所 提供 的 3 种 方法 如 下 : 
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Set<KeyType> keySet( ) 
Collection<ValueType> values( ) 
Set<Map.Entry<KeyType,ValueType>> entrySet( ) 


方法 keySet fil values 返回 简单 的 集合 (这 些 关键 字 不 包含 重复 元 , 因此 以 一 个 Set 对 象 的 形 
式 返 回 ) 。 这 里 的 entrySet 方法 是 作为 一 些 项 而 形成 的 Set 对 象 被 返回 的 (由 于 关键 字 是 唯 
一 的 ， 因 此 不 存在 重复 项 )。 每 一 项 均 由 被 嵌 套 的 接口 Map. Entry 表示 。 对 于 类 型 
Map. Entry 的 对 象 , 其 现 有 的 方法 包括 访问 关键 字 、 关 键 字 的 值 ， 以 及 改变 关键 字 的 值 : 

KeyType getKey( ) 

ValueType getValue( ) 

ValueType setValue( ValueType newValue ) 


4.8.8 TreeSet 类 和 TreeMap 类 的 实现 

Java 要 求 TreeSet 和 TreeMap 支持 基本 的 add, remove 和 contains' 操 作 以 对 数 最 坏 
情形 时 间 完 成 。 因 此 ,基本 的 实现 方法 就 是 平衡 二 又 查找 树 。 一 般 说 来 , 我 们 并 不 使 用 AVL 
树 ， 而 是 经 常 使 用 一 些 自 顶 向 下 的 红 黑 树 , 这 种 树 我 们 将 在 12. 2 节 讨 论 。 

实现 TreeSet 和 TreeMap 的 一 个 重要 问题 是 提供 对 迭代 器 类 的 支持 。 当 然 , 在 内 部 , 3X 
代 器 保留 到 和 妈 代 中 “当前 ”节点 的 一 个 链接 。 困 难 部 分 是 到 下 一 个 节点 高 效 的 推进 。 存 在 几 
种 可 能 的 解决 方案 , 其 中 的 一 些 方案 叙述 如 下 : 

1. 在 构造 迭代 器 时 , 让 每 个 迭代 器 把 包含 诸 TreeSet 项 的 数组 作为 该 迭代 器 的 数据 存储 。 
这 有 不 足 ,， 因 为 我 们 还 可 以 使 用 toaArray, 并 不 需要 迭代 器 。 

2. 证 迁 代 器 保留 存储 通 向 当前 节点 的 路 径 上 的 节点 的 一 个 栈 。 根 据 该 信息 , 可 以 推出 迭代 
器 中 的 下 一 个 节点 , 它 或 者 是 包含 最 小 项 的 当前 节点 右 子 树 上 的 节点 , 或 者 包含 其 左 子 树 当 前 
节点 的 最 近 的 祖先 。 这 使 得 迭代 器 多 少 有 些 大 , 并 导致 迭代 器 的 代码 胶 肿 。 

3. 让 查找 树 中 的 每 个 节点 除 存储 子 节点 外 还 要 存储 它 的 父 节 点 。 此 时 迭代 器 不 至 于 那么 
X, 但 是 在 每 个 节点 上 需要 额外 的 内 存 , 并 且 和 迭代 器 的 代码 仍然 腾 肿 。 

4. 让 每 个 节点 保留 两 个 附加 的 链 : 一 个 通 回 下 一 个 更 小 的 节点 , 男 一 个 通 向 下 一 个 更 大 的 
节点 。 这 要 占用 空间 , 不 过 迭代 器 做 起 来 非常 简单 , 并 且 保 留 这 些 链 也 很 容易 。 

5. 只 对 那些 具有 null 左 链 或 nu11 右 链 的 节点 保留 附加 的 链 。 通 过 使 用 附加 的 布尔 变量 
使 得 这 些 例 程 判 断 是 一 个 左 链 正在 被 用 作 标 准 的 二 又 树 左 链 还 是 一 个 通 向 下 一 个 更 小 节点 的 
E, 类 似 地 , 对 右 链 也 有 类 似 的 判断 ( 见 练习 4.50)。 这 种 做 法 叫 作 线索 树 (threaded tree), 用 于 
许多 平衡 二 又 查找 树 的 实现 中 。 

4.8.4 使 用 多 个 映射 的 实例 

许多 单词 都 和 另外 一 些 单词 相似 。 例 如 , 通过 改变 第 1 个 字母 , 单词 wine 可 以 变 成 dine, 
fine, line, mine, nine, pine 或 vine, 通过 改变 第 3 个 字母 ,wine 可 以 变 成 wide, wife, wipe 或 
wire。 通 过 改变 第 4 个 字母 wine 可 以 变 成 wind, wing, wink 或 wins。 这 样 我 们 就 得 到 15 个 不 同 
的 单词 , 它们 仅仅 通过 改变 wine 中 的 一 个 字母 而 得 到 。 实 际 上 , 存在 20 多 个 不 同 的 单词 ,其 中 
有 些 单词 更 生僻 。 我 们 想 要 编写 一 个 程序 以 找 出 通过 单个 字母 的 替换 可 以 变 成 至 少 15 个 其 他 
单词 的 单词 。 假 设 我 们 有 一 个 词典 , 由 大 约 89 000 个 不 同 长 度 的 不 同 单词 组 成 。 大 部 分 单词 在 
6 ~11 个 字母 之 间 。 其 中 6 字母 单词 有 8205 个 , 7 字母 单词 有 11989 个 , 8 字母 单词 13 672 个 ， 
9 字母 单词 13 014 个 , 10 字母 单词 11 297 个 , 11 字母 单词 8 617 个 (实际 上 , 最 可 变化 的 单词 是 
3 字母 、4 字母 和 5 字母 单词 , 不 过 , 更 长 的 单词 检查 起 来 更 耗费 时 间 ) 。 

最 直接 了 当 的 策略 是 使 用 一 个 Map 对 象 , 其 中 的 关键 字 是 单词 ,而 关键 字 的 值 是 用 1 字母 
替换 能 够 从 关键 字 变 换 得 到 的 一 列 单词 。 图 4-65 中 的 例 程 显示 最 后 得 到 的 (我 们 必须 写 出 这 部 
分 的 代码 )Map 如 何 能 够 用 来 打印 所 要 求 的 答案 。 该 程序 得 到 项 的 集合 并 使 用 增强 的 for 循环 遍 
历 该 项 集合 并 观察 这 些 由 一 个 单词 和 一 列 单词 组 成 的 序 偶 。 
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public static void printHighChangeables( Map<String,List<String>> adjWords, 
int minWords ) 
{ 
for( Map.Entry<String,List<String>> entry : adjWords.entrySet( ) ) 
{ 


List<String> words = entry.getValue( ); 


if( words.size( ) >= minWords ) 


1 
2 
3 
4 
5 
6 
7 
8 
9 


System.out.print( entry.getKey( ) * " (" ); 
System.out.print( words.size( ) * "):" ); 
for( String w : words ) 

System.out.print( " " +w ); - 
System.out.printin( ); 





图 4-65 给 出 包含 一 些 单词 作为 关键 字 和 只 在 一 个 字母 上 不 同 的 一 列 单词 作为 关键 字 的 值 ， 
输出 那些 具有 minWords 个 或 更 多 个 通过 1 字母 替换 得 到 的 单词 的 单词 


主要 的 问题 是 如 何 从 包含 89 000 个 单词 的 数组 构造 Map 对 象 。 图 4-66 中 的 例 程 是 测试 除 
一 个 字母 替换 外 两 个 字母 是 否 相等 的 简单 函数 。 我 们 可 以 使 用 该 例 程 以 提供 最 简单 的 Map 构 
造 算法 , 它 是 所 有 单词 序 偶 的 蛮 力 测试 。 这 个 算法 如 图 4-67 所 示 。 


// Returns true if wordl and word2 are the same length 
// and differ in only one character. 
private static boolean oneCharOff( String wordl, String word2 ) 
{ 
if( wordl.length( ) != word2.length( ) ) 
return false; 


CON Ov UA BW DH — 


int diffs = 0; 


for( int i = 0; i « wordl.length( ); i++ ) 
if( wordl.charAt( i ) != word2.charAt( i ) ) 
if( ++diffs > 1) 
return false; 


return diffs == 1; 








图 4-66 检测 两 个 单词 是 否 只 在 一 个 字母 上 不 同 的 例 程 


为 了 遍历 单词 的 集合 , 可 以 使 用 一 个 迭代 器, 但 是 , 因为 我 们 正在 通过 一 个 在 套 ( 即 多 次 ) 
循环 遍历 该 集合 , 因此 使 用 toarray 将 该 集合 转 储 到 一 个 数组 (第 9 行 和 第 11 行 )。 尤 其 是 ， 
这 避免 了 重复 调用 以 使 从 Object 向 String 转化 , 如 果 使 用 泛 型 那么 它 将 发 生 在 幕后 。 而 我 
们 这 里 则 是 直接 给 String! ] 对 象 添 加 下 标 来 使 用 。 156 
如 果 我 们 发 现 一 对 单词 只 有 一 个 字母 不 同 , 那么 可 以 在 16 行 和 17 行 更 新 该 Map MAR. FE 
私有 的 update 方法 中 , 我 们 在 第 26 行 能 够 看 到 , 是 否 已 经 存在 一 列 与 关键 字 相 关 的 单词 ， 如 
果 前 面 已 经 见 过 key, 因为 1st 不 是 null, 那么 它 就 在 这 个 Map 对 象 中 , 而 我 们 只 需 将 该 新 
单词 添加 到 这 个 Map 的 List 中 去 , 这 件 工作 是 通过 调用 第 33 行 的 ada 完成 的 。 如 果 以 前 从 
未 见 过 key, 那么 第 29 行 和 30 行 则 将 其 放 到 该 Map 对 象 中 , List 大 小 为 0, 因此 aaa 将 该 
List 大 小 更 新 为 1。 总 之 , 这 是 标准 的 保留 一 个 Map 的 惯用 做 法 ,其 中 的 值 是 一 个 集合 。 
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// Computes a map in which the keys are words and values are Lists of words 
// that differ in only one character from the corresponding key. 

// Uses a quadratic algorithm (with appropriate Map). 

public static Map<String,List<String>> 

computeAdjacentWords( List<String> theWords ) 

{ 


Map<String,List<String>> adjWords = new TreeMap<>( ); 


CON DA 让 WP 一 


String [ ] words = new String[ theWords.size( ) ]; 


theWords.toArray( words ); 
for( int i = 0; i < words.length; i++ ) 
for( int j = i + 1; j < words.length; j++ ) 
if( oneCharOff( words[ i ], words[ j ] ) ) 
{ 


update( adjWords, words[ i ], words[ j ] 
update( adjWords, words[ j ], words[ i ] 
} 


Js 

js 
return adjWords; 

} 


private static <KeyType> void update( Map<KeyType,List<String>> m, 
KeyType key, String value ) 
{ 


List<String> Ist = m.get( key ); 
if( Ist == null ) 


Ist = new ArrayList<>( ); 
m.put( key, Ist ); 


lst.add( value ); 





图 4-67 计算 一 个 Map 对 象 的 函数 , 该 对 象 以 一 些 单词 作为 关键 字 而 以 只 在 一 个 字母 处 不 同 
的 一 列 单词 作为 关键 字 的 值 。 该 函数 对 一 个 89 000 单词 的 词典 运行 75 秒 


该 算法 的 问题 在 于 速度 慢 , 在 我 们 的 计算 机 上 花费 75 秒 的 时 间 。 一 个 明显 的 改进 是 避免 
比较 不 同 长 度 的 单词 。 我 们 可 以 把 单词 按照 长 度 分 组 , 然后 对 各 个 分 组 运行 刚才 提供 的 程序 。 

为 此 , 可 以 使 用 第 2 个 映射 ! 此 时 的 关键 字 是 个 整数 , 代表 单词 的 长 , 而 值 则 是 该 长 度 的 
所 有 单词 的 集合 。 我 们 可 以 使 用 一 个 List 存储 每 个 集合 , 然后 应 用 相同 的 做 法 。 程 序 如 图 4-68 
所 示 。 第 9 行 是 第 2 个 Map 的 声明 , 第 13 行 和 第 14 行将 分 组 置 人 该 Map, 然后 用 一 个 附加 的 
循环 对 每 组 单词 迭代 。 与 第 1 个 算法 比较 , 第 2 个 算法 只 是 在 边际 上 编程 困难 , 其 运行 时 间 为 
16 秒 , 大 约 快 了 5 倍 。 

第 3 个 算法 更 复杂 , 使 用 一 些 附 加 的 映射 ! 和 前 面 一 样 , 将 单词 按照 长 度 分 组 , 然后 分 别 
对 每 组 运算 。 为 理解 这 个 算法 是 如 何 工作 的 , 假设 我 们 对 长 度 为 4 的 单词 操作 。 这 时 , 首先 要 
找 出 像 wine 和 nine 这 样 的 单词 对 , 它们 除 第 1 个 字母 外 完全 相同 。 对 于 长 度 为 4 的 每 一 个 单 
i], 一 种 做 法 是 删除 第 1 个 字母 , 留 下 一 个 3 字母 单词 代表 。 这 样 就 形成 一 个 Map， 其 中 的 关 
键 字 为 这 种 代表 , 而 其 值 是 所 有 包含 同一 代表 的 单词 的 一 个 List。 例 如 , 在 考虑 4 字母 单词 组 的 
第 1 个 字母 时 , 代表 “ine” 对 应 “dine” “fine” “wine” “nine” “mine” “vine” "pine" “line”, 
代表 “oot” 对 应 “boot”“foot”“hoot”“]oot”“soot”“zoot”。 每 一 个 作为 最 后 的 Map 的 一 个 值 
的 List 对 象 都 形成 单词 的 一 个 集团 , 其 中 任何 一 个 单词 均 可 以 通过 单字 母 蔡 换 变 成 另 一 个 单 
词 , 因此 在 这 个 最 后 的 Map 构成 之 后 , 很 容易 遍历 它 以 及 添加 一 些 项 到 正在 计算 的 原始 Map 
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中 。 然 后 , 我 们 使 用 一 个 新 的 Map 再 处 理 4 字母 单词 组 的 第 2 个 字母 。 此 后 是 第 3 个 字母 , 最 


后 处 理 第 4 个 字母 。 


e —- 
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图 4-68 


// Computes a map in which the keys are words and values are Lists of words 
// that differ in only one character from the corresponding key. 

// Uses a quadratic algorithm (with appropriate Map), but speeds things by 
// maintaining an additional map that groups words by their length. 

public static Map<String,List<String>> 

computeAdjacentWords( List«String» theWords ) 


{ 





Map<String,List<String>> adjWords = new TreeMap<>( ); — 
Map<Integer,List<String>> wordsByLength = new TreeMap<>( ); 


// Group the words by their length 
for( String w : theWords ) 
update( wordsByLength, w.length( ), w ); 


// Work on each group separately 
for( List«String» groupsWords : wordsByLength.values( ) ) 
{ 


String [ ] words = new String[ groupsWords .size( )l 


groupsWords.toArray( words ); 
for( int i = 0; i « words.length; i++ ) 
for( int j = i + 1; j « words.length; j++ ) 
if( oneCharOff( words[ i ], words[ j ] ) ) 
{ 
update( adjWords, words[ i ], words[ j ] ); 
update( adjWords, words[ j ], words[ i ] ); 


return adjWords; 


计算 一 个 映射 的 函数 ,该 映射 以 单词 作为 关键 字 并 且 以 只 有 一 个 字母 不 同 的 一 列 单词 
作为 关键 字 的 值 。 将 单词 按照 长 度 分 组 。 该 算法 对 89 000 个 单词 的 词典 运行 16 秒 


for each group g, containing words of length len 
for each position p (ranging from 0 to len-1) 


{ 


} 


Make an empty Map<String,List<String> > repsToWords 
for each word w 


Obtain w's representative by removing position p 
Update repsToWords 


Use cliques in repsToWords to update adjWords map 


图 4-69 包含 该 算法 的 一 种 实现 , 其 运行 时 间 改 进 到 4 秒 。 虽 然 这 些 附加 的 Map 使 得 算法 
ER, 而 且 句 子 结构 也 相对 清晰 , 但 是 程序 没有 利用 到 该 Map 的 关键 字 保持 有 序 排列 的 事实 ， 
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注意 到 这 一 点 很 有 趣 。 


// Computes a map in which the keys are words and values are Lists of words 






































1 
2 // that differ in only one character from the corresponding key. 
3 // Uses an efficient algorithm that is O(N log N) with a TreeMap. 
4 public static Map<String,List<String>> 
5 computeAdjacentWords( List«String» words ) 
6 { 
7 Map<String,List<String>> adjWords = new TreeMap<>( ); 
8 Map<Integer,List<String>> wordsByLength = new TreeMap<>( ); 
9 
10 // Group the words by their length 
11 for( String w : words ) 
12 update( wordsByLength, w.length( ), w ); 
13 
14 // Work on each group separately 
15 for( Map.Entry<Integer,List<String>> entry : wordsByLength.entrySet( ) ) 
16 ( 
17 List«String» groupsWords - entry.getValue( ); 
18 int groupNum = entry.getKey( ); 
19 
20 // Work on each position in each group 
21 for( int i = 0; i < groupNum; i++ ) 
22 { 
23 // Remove one character in specified position, computing 
24 // representative. Words with same representative are 
25 // adjacent, so first populate a map ... 
26 Map<String,List<String>> repToWord = new TreeMap<>( ); 
27 
28 for( String str : groupsWords ) 
29 { 
30 String rep = str.substring( 0, i ) + str.substring( i + 1 ); 
31 update( repToWord, rep, str ); 
32 } 
33 
34 // and then look for map values with more than one string 
35 for( List<String> wordClique : repToWord.values( ) ) 
36 if( wordClique.size( ) >= 2 ) 
37 for( String sl : wordClique ) 
38 for( String s2 : wordClique ) 
39 if( sl != s2 ) 
40 update( adjWords, sl, s2 ); 
41 } 
42 } 
43 
44 return adjWords; 


4 
un 


图 4-69 计算 包含 单词 作为 关键 字 及 只 有 一 个 字母 不 同 的 一 列 单词 作为 值 
的 映射 的 函数 。 对 一 个 89 000 单词 的 词典 只 运行 1 秒 钟 
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同样 , 有 可 能 一 种 支持 Map 的 操作 但 不 保证 有 序 排 列 的 数据 结构 可 能 运行 得 更 快 , 因为 它 要 做 
的 工作 更 少 。 第 5 章 将 探索 这 种 可 能 性 , 并 讨论 隐藏 在 另 一 种 Map 实现 背后 的 想法 , 这 种 实现 
叫 作 HashMap, HashMap 将 实现 的 运行 时 间 从 1 秒 减 少 到 0. 8 秒 。 


小 结 


我 们 已 经 看 到 树 在 操作 系统 、 编 译 器 设计 以 及 查找 中 的 应 用 。 表 达 式 树 是 更 一 般 结构 即 所 
谓 分 析 树 (parse tree) 的 一 个 小 例子 , 分 析 树 是 编译 器 设计 中 的 核心 数据 结构 。 分 析 树 不 是 二 又 
树 , 而 是 表达 式 树 相 对 简单 的 扩充 (不 过 , 建立 分 析 树 的 算法 却 并 不 这 么 简单 ) 。 

查找 树 在 算法 设计 中 是 非常 重要 的 。 它 们 几乎 支持 所 有 有 用 的 操作 ,而 其 对 数 平均 开销 很 
小 。 查找 树 的 非 递归 实现 多 少 要 快 一 些 , 但 是 递归 实现 更 巧妙 、 更 精彩 ; 而 且 更 易于 理解 和 除 
错 。 查 找 树 的 问题 在 于 , 其 性 能 严重 地 依赖 于 输入 , 而 输入 却 是 随机 的 。 如 果 情 况 不 是 这 样 ， 
则 运行 时 间 会 显著 增加 ,查找 树 会 成 为 昂贵 的 链表 。 

我 们 见 到 了 处 理 这 个 问题 的 几 种 方法 。AVL 树 要 求 所 有 节点 的 左 子 树 与 右 子 树 的 高 度 相差 
最 多 是 1。 这 就 保证 了 树 不 至 于 太 深 。 不 改变 树 的 操作 (但 插入 操作 改变 树 ) 都 可 以 使 用 标准 二 
又 查找 树 的 程序 。 改 变 树 的 操作 必须 将 树 恢复 。 这 多 少 有 些 复杂 , 特别 是 在 删除 的 情况 。 我 们 
叙述 了 在 以 OClog N) 的 时 间 插 入 后 如 何 将 树 恢复 。 

我 们 还 考察 了 伸展 树 。 伸 展 树 中 的 节点 可 以 达到 任意 深度 , 但 是 在 每 次 访问 之 后 树 又 以 多 
少 有 些 神 秘 的 方式 被 调整 。 实 际 效果 是 , 任意 连续 M 次 操作 花费 OCM log N) 时 间 , 它 与 平衡 树 
花费 的 时 间 相 同 。 

与 2 路 树 或 二 又 树 不 同 ,B 树 是 平衡 M 路 树 , 它 能 很 好 地 适应 磁盘 操作 的 情况 ; 一 种 特殊 
情形 是 2 -3 树 (M =3), 它 是 实现 平衡 查找 树 的 男 一 种 方法 。 

在 实践 中 , 所 有 平衡 树 方案 的 运行 时 间 对 于 插入 和 删除 操作 ( 除 查 找 稍微 快 一 些 外 ) 都 不 如 
简单 二 又 查找 树 省 时 ( 差 一 个 常数 因子 ) , 但 这 一 般 说 来 是 可 以 接受 的 , 它 防 止 轻易 得 到 最 坏 情 
形 的 输入 。 第 12 章 将 讨论 某 些 男 外 的 查找 树 数据 结构 并 给 出 一 些 详细 的 实现 方法 。 

最 后 注意 : 通过 将 一 些 元 素 插 入 到 查找 树 然后 执行 一 次 中 序 遍 历 , 我 们 得 到 的 是 排 过 顺序 
的 元 素 。 这 给 出 排序 的 一 种 0(N log N) 算 法 ,如 果 使 用 任何 成 熟 的 查找 树 则 它 就 是 最 坏 情 形 的 
9t. 我们 将 在 第 7 章 看 到 一 些 更 好 的 方法 , 不 过 , 这 些 方法 的 时 间 界 都 不 可 能 更 低 。 


练习 


问题 4.1 ~4.3 参考 图 4-70 中 的 树 。 
4.1 ”对 于 图 4-70 中 的 树 : 
a, 哪个 节点 是 根 ? 
b. 哪些 节点 是 树叶 ? 
4.2 ”对 于 图 4-70 中 树 上 的 每 一 个 节点 : 
a. 指出 它 的 父 节 点 。 
b. 列 出 它 的 儿子 。 
c， 列 出 它 的 兄弟 
d. 计算 它 的 深度 。 
e. 计算 它 的 高 度 
4.3 图 4-70 中 树 的 深度 是 多 少 ? 
4.4 ”证 明 在 NN 个 节点 的 二 叉 树 中 , 存在 N+1 个 null 链 ,代表 N+1 个 儿子 。 
45 ”证 明 在 高 度 为 的 二 叉 树 中 , 节点 的 最 大 个 数 是 2"'" -1。 
4.6 ” 满 节 点 (full node) 是 具有 两 个 儿子 的 节点 。 证 明 满 节点 的 个 数 加 1 等 于 非 空 二 叉 树 的 树叶 的 
个 数 ， 


4.7 设 二 叉 树 有 树叶 1 , l, SEES ly, 各 树叶 的 深度 分 别 是 dis d,, ng ire 证 明 ， yar <l 并 确 
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4.8 


4.9 
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定 何 时 等 号 成 立 。 
给 出 对 应 图 4-71 中 的 树 的 前 缀 表达 式 、 中 级 表达 式 以 及 后 级 表达 式 。 





图 4-70 练习 4.1~4.3 所 用 的 图 图 4-71 练习 4.8 中 的 树 


a. 指出 将 3, 1, 4, 6, 9, 2, 5, 7 插入 到 初始 为 空 二 又 查找 树 中 的 结果 。 

b. 指出 删除 根 后 的 结果 。 

编写 一 个 程序 , 该 程序 列 出 一 个 目录 中 所 有 的 文件 和 它们 的 大 小 。 模 拟 联机 代码 中 的 程序 。 

编写 TreeSet 类 的 实现 程序 , 其 中 相关 的 迭代 器 使 用 二 叉 查找 树 。 在 每 个 节点 上 添加 一 个 指向 

其 父 节 点 的 链 。 

通过 存储 类 型 TreeSet « Map. Entry < KeyType, ValueType >> 的 一 个 数据 成 员 编写 实现 

TreeMap 类 的 程序 。 

编写 TreeSet 类 的 实现 程序 , 其 中 相关 的 迭代 器 使 用 二 又 查 找 树 。 在 每 个 节点 上 添加 通 向 下 一 

个 最 小 节点 和 下 一 个 最 大 节点 的 链 。 为 使 所 编程 序 更 简单 ,添加 头 节点 和 尾 节 点 , 它们 不 属于 

二 叉 树 的 一 部 分 , 但 有 助 于 使 得 程序 的 链表 部 分 更 简单 。 

设 欲 做 一 个 实验 来 验证 由 随机 insert /xemove 操作 对 可 能 引起 的 问题 。 这 里 有 一 个 策略 , 它 

不 是 完全 随机 的 , 但 却 是 足够 封闭 的 。 通 过 插入 从 1 到 M = oN 之 间 随 机 选 出 的 N 个 元 素来 建立 

一 棵 具有 V 个 元 素 的 树 。 然 后 执行 Y 对 先 插入 后 删除 的 操作 。 假 设 存在 例 程 randomInteger 

(a, b), 它 返回 一 个 在 a 和 4 之 间 ( 包 括 a、b) 的 均匀 随机 整数 。 

a. 解释 如 何 生成 在 1 和 之 间 的 一 个 随机 整数 ,该 整数 不 在 这 棵 树 上 (从 而 可 以 进行 随机 插 
入 )。 用 ww 和 wa 来 表示 这 个 操作 的 运行 时 间 。 

b. 解释 如 何 生 成 在 1 和 1 之 间 的 一 个 随机 整数 ,该 整数 已 经 存在 于 这 棵 树 上 (从 而 可 以 进行 随 
机 删除 ) 。 这 个 操作 的 运行 时 间 是 多 少 ? 

c. a 的 好 的 选择 是 什么 ? 为 什么 ? 

编写 一 个 程序 , 赁 经 验 计算 下 列 删 除 具 有 两 个 儿子 的 节点 的 各 方法 的 值 ; 

a. FAT, 中 最 大 节点 下 来 代替 ,递归 地 删除 Xo 

b. 交替 地 用 T, 中 最 大 的 节点 以 及 Te 中 最 小 的 节点 来 代替 , 并 递归 地 删除 适当 的 节点 。 

c. 随机 地 选用 T, 中 最 大 的 节点 或 T, 中 最 小 的 节点 来 代替 (递归 地 删除 适当 的 节点 ) 。 

哪 种 方法 给 出 最 好 的 平衡 ? 哪 种 在 处 理 整 个 操作 序列 过 程 中 花费 最 少 的 CPU 时 间 ? 

重 做 二 又 查找 树 类 以 实现 懒惰 删除 。 仔 细 注 意 这 将 影响 所 有 的 例 程 。 特 别 具 有 挑战 性 的 是 

findMin fll findMax, 它们 现在 必须 递归 地 完成 。 

EB], 随机 二 叉 查 找 树 的 深度 (最 深 的 节点 的 深度 ) 平 均 为 0(log N) o 


“a. 给 出 高 度 为 h 的 AVL 树 的 节点 的 最 少 个 数 的 精确 表达 式 。 


b. 高 度 为 15 的 AVL 树 中 节点 的 最 小 个 数 是 多 少 ? 

指出 将 2, 1,4, 5, 9, 3, 6, 7 插入 到 初始 空 AVL 树 后 的 结果 。 

依次 将 关键 字 1，2，…, 2 - 1 插入 到 一 棵 初始 空 AVL 树 中 。 证 明 所 得 到 的 树 是 理想 平衡 
(perfectly balanced ) 的 。 

写 出 实现 AVL 单 旋转 和 双 旋 转 的 其 余 的 过 程 。 

设计 一 个 线性 时 间 算 法 , 该 算法 检验 AVL 树 中 的 高 度 信息 是 否 被 正确 保留 并 且 平 衡 性 质 是 否 
成 立 。 

写 出 向 AVL 树 进行 插入 的 非 递归 方法 。 
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4. 39 


4. 40 


如 何 能 够 在 AVL 树 中 实现 ( 非 懒惰 ) 删除 ? 

a. 为 了 存储 一 棵 NN 一 节 点 的 AVL 树 中 一 个 节点 的 高 度 , 每 个 节点 需要 多 少 比 特 (bit) ? 

b. 使 8 -比特 高 度 计 数 器 溢出 的 最 小 AVL 树 是 什么 ? 

写 出 执行 双 旋转 的 方法 ,其 效率 要 超过 做 两 个 单 

旋转 。 

指出 依 序 访问 图 4-72 的 伸展 树 中 的 关键 字 3, 9, 1, 

5 后 的 结果 。 

指出 在 前 一 道 练习 所 得 到 的 伸展 树 中 删除 具有 关键 

¥ 6 的 元 素 后 的 结果 。 

a. 证明 如 果 按 顺序 访问 伸展 树 中 的 所 有 节点 , 则 所 | 
得 到 的 树 由 一 连 串 的 左 儿 子 组 成 。 /一 图 4-72 练习 4.27 中 的 树 





b. 证 明 如 果 按 顺序 访问 伸展 树 中 的 所 有 节点 , 则 总 的 访问 时 间 是 OCN), 与 初始 树 无 关 。 


编写 一 个 程序 对 伸展 树 执行 随机 操作 。 计 算 所 执行 的 总 的 旋转 次 数 。 与 AVL 树 和 非 平衡 二 叉 查 

找 树 相 比 ， 其 运行 时 间 如 何 ? 

编写 一 些 高 效率 的 方法 , 只 使 用 对 二 又 树 的 根 的 引用 T, 并 计算 : 

a 了 中 节点 的 个 数 。 

b. 了 中 树叶 的 片 数 。 

c. 了 中 满 节点 的 个 数 。 

设计 一 个 递归 的 线性 算法 ,该 算法 测试 一 棵 二 又 树 是 否 在 每 一 个 节点 都 满足 查找 树 的 序 的 性 质 。 

编写 一 个 递归 方法 ,该 方法 使 用 对 树 7 的 根 节 点 的 引用 而 返回 从 了 删除 所 有 树叶 所 得 到 的 树 的 

根 节 点 的 引用 。 

写 出 生成 一 棵 N - 节点 随机 二 又 查找 树 的 方法 ,该 树 具有 从 1 直到 六 的 不 同 的 关键 字 。 你 所 编 

写 的 例 程 的 运行 时 间 是 多 少 ? 

写 出 生成 具有 最 少 节点 高 度 为 h 的 AVL 树 的 方法 , 该 方法 的 运行 时 间 是 多 少 ? 

编写 一 个 方法 , 使 它 生 成 一 棵 具有 关键 字 从 1 直到 2"*' -1 且 高 为 h 的 理想 平衡 二 又 查找 树 

( perfectly balanced binary search tree) 。 该 方法 运行 时 间 是 多 少 ? 

编写 一 个 方法 以 二 叉 查 找 树 T 和 两 个 有 序 的 关键 字 k M k, 作为 输入 , HP k <k, 并 打印 树 中 

所 有 满足 <Key(X) <k, 的 元 素 X。 除 可 以 被 排序 外 , 不 对 关键 字 的 类 型 做 任何 假设 。 所 写 的 

程序 应 该 以 平均 时 间 OCK + log N) 运 行 , 其 中 天 是 所 打印 的 关键 字 的 个 数 。 确 定 你 的 算法 的 运 

行 时 间 界 。 

本 章 中 一 些 更 大 的 二 叉 树 是 由 一 个 程序 自动 生成 的 。 可 以 采取 这 种 办 法 : 给 树 的 每 一 个 节点 指 

定 坐 标 (x, y) ， 围 绕 每 个 坐标 点 画 一 个 圆圈 ( 在 某 些 图 片 中 这 可 能 很 难看 清 )， 并 将 每 个 节点 连 

到 它 的 父 节 点 上 。 假 设 在 存储 器 中 存 有 一 棵 二 又 查找 树 ( 或 许 是 由 上 面 的 一 个 例 程 生成 的 ) 并 设 

每 个 节点 都 有 两 个 附加 的 域 存放 坐标 。 

a. 坐标 x 可 以 通过 指定 中 序 遍 历数 来 计算 。 写 出 一 个 例 程 对 树 中 的 每 个 节点 做 这 个 工作 。 

b. HEER y 可 以 通过 使 用 节点 深度 的 负 值 算出 。 写 出 一 个 例 程 对 树 中 的 每 个 节点 做 这 个 工作 。 

c. 若 使 用 某 个 虚拟 的 单位 表示 , 则 所 画图 形 的 具体 尺寸 是 多 少 ? 如 何 调整 单位 使 得 所 画 的 树 总 
是 高 大 约 为 宽 的 三 分 之 二 ? 

d. WEH, 使 用 这 个 系统 没有 交叉 的 线 出 现 , 同时 , 对 于 任意 节点 ,站 的 左 子 树 的 所 有 元 素 都 出 
现在 XX 的 左边 , X 的 右 子 树 的 所 有 元 素 都 出 现在 X 的 右边 。 

编写 一 个 通用 的 画 树 程序 , 该 程序 将 把 一 棵 树 转变 成 下 列 的 图 -汇编 指令 : 

a. Circle( X, Y) 

b. DrawLine( i, j) 

第 一 个 指令 在 (X, Y) ibi — SBR, 而 第 二 个 指令 则 连接 第 i 个 圆 和 第 j 个 圆 ( 圆 以 所 画 的 顺序 编 

号 )。 你 或 者 把 它 写成 一 个 程序 并 定义 某 种 输入 语言 , 或 者 把 它 写 成 一 个 方法 , 该 方法 可 以 被 任 

何 程序 调用 。 你 的 程序 的 运行 时 间 是 多 少 ? 

(这 道 题 假 设 熟悉 Java 的 Swing 类 库 ) 编 写 一 个 程序 , 该 程序 读 图 - 汇编 指令 并 生成 Java 程序 ， 

后 者 画 到 画布 (Canvas) 上 (注意 , 你 必须 把 所 存储 的 坐标 用 像素 来 表示 ) 。 
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4.41 


4.42 


4.43 
4.44 
4.45 
4. 46 


4.47 


编写 一 个 例 程 以 层 序 (level- order) 列 出 二 叉 树 的 节点 。 先 列 出 根 , 然后 列 出 深度 为 1 的 那些 节 
点 , 再 列 出 深度 为 2 的 节点 ,等 等 。 必 须要 在 线性 时 间 内 完成 这 个 工作 。 证 明 你 的 时 间 界 ， 
“a, 写 出 向 一 棵 B 树 进行 插入 的 例 程 。 
"b. 写 出 从 一 棵 B 树 执行 删除 的 例 程 。 当 一 项 被 删除 时 , 是否 有 必要 更 新 内 部 节点 的 信息 ? 
“c. 修改 你 的 插入 例 程 , 使 得 如 果 想 要 向 一 个 已 经 有 1 项 的 节点 添加 元 素 , 则 在 分 裂 该 节点 以 前 
要 执行 搜索 具有 少 于 M 个 儿子 的 兄弟 的 工作 。 

M fjr B' 树 (B" tree) 是 其 每 个 内 部 节点 的 儿子 数 在 2M/3 AM 之 间 的 B 树 。 描 述 一 种 向 B^ RIA 
行 插入 的 方法 。 

指出 如 何 用 儿子 /兄弟 链 实现 方法 表示 图 4-73 中 的 树 。 

编写 一 个 过 程 使 该 过 程 遍历 一 棵 用 儿子 /兄弟 链 存 储 的 树 。 

如 果 两 棵 二 叉 树 或 者 都 是 空 树 , 或 者 非 空 且 具 有 相似 的 左 子 树 和 右 子 树 ， 则 这 两 棵 二 又 树 是 相 
似 的 。 编 写 一 个 方法 以 确定 是 否 两 棵 二 义 树 是 相似 的 。 你 的 方法 的 运行 时 间 如 何 ? 

如 果树 T 通过 交换 其 ( 某 些 ) 节点 的 左右 儿子 变换 成 树 T, WER 7 AT, 是 同 构 
的 (isomorphic) 。 例 如 , 图 4-74 中 的 两 棵 树 是 同 构 的 , 因为 交换 A、B 、G 的 儿子 而 不 交换 其 他 节 
点 的 儿子 后 这 两 棵 树 是 相同 的 。 

a. 给 出 一 个 多 项 式 时 间 算 法 以 决定 是 否 两 棵 树 是 同 构 的 。 

"b. 你 的 程序 的 运行 时 间 是 多 少 (存在 一 个 线性 的 解决 方案 )? 





4. 50 


图 4-73 练习 4.44 中 的 树 图 4-74 两 棵 同 构 的 树 


"a. 证 明 , 经 过 一 些 AVL 单 旋转 , 任意 二 又 查找 树 T, 可 以 变换 成 男 一 棵 (具有 相同 项 的 ) 查 找 树 7。 
"b. 给 出 一 个 算法 平均 用 OON log N) 次 旋转 完成 这 种 变换 。 


“c. 证 明 该 变换 在 最 坏 的 情形 下 可 以 用 0(N) 次 旋转 完成 。 


设 我 们 想 要 把 运算 findkth 添加 到 指令 集中 。 该 运算 findKth(k) 返 回 树 的 第 个 最 小 项 。 假 
设 所 有 的 项 都 是 互 异 的 。 解 释 如 何 修 改 二 叉 树 以 平均 O(log NN) 时 间 支 持 这 种 运算 , 而 又 不 影响 
任何 其 他 操作 的 时 间 界 。 

由 于 具有 WN 个 节点 的 二 又 查找 树 有 N+1 个 null 引用 , 因此 在 二 又 查找 树 中 指定 给 链接 信息 的 
空间 的 一 半 被 浪费 了 。 设 若 一 个 节点 有 一 个 null 左 儿 子 , 我 们 使 它 的 左 儿 子 链接 到 它 的 中 序 
前 驱 元 (inorder predecessor) , 若 一 个 节点 有 一 个 null 右 儿子 , 我 们 让 它 的 右 儿子 链接 到 它 的 中 
序 后 继 元 (inorder successor) 。 这 就 叫 作 线索 树 (threaded tree) ,而 附加 的 链 就 叫 作 线 索 (thread) 。 
a. 我 们 如 何 能 够 从 实际 儿子 的 链 中 区 分 出 线索 ? 

b. 编写 执行 向 由 上 面 描述 的 方式 形成 的 线索 树 进行 插入 的 例 程 和 删除 的 例 程 。 

c. 使 用 线索 树 的 优点 是 什么 ? 

令 A(N) 为 一 棵 NN 节点 二 叉 查 找 树 中 满 节 点 的 平均 个 数 。 

a. 确定 fA0) 和 f(1) 的 值 。 

b. 证 明 , 对 于 NN>1 





RN st +A 5-1) 

e (AWEH ACON) = (N -2)/3 是 问题 (b) 中 的 方程 的 解 , 其 初始 条 件 在 问题 (a) 中 。 

d. 应 用 练习 4 6 的 结果 确定 二 又 查找 树 中 树叶 的 平均 个 数 。 

编写 一 个 程序 ,该 程序 读 Java 源 代码 文件 并 以 字母 顺序 输出 所 有 的 标识 符 ( 即 变量 名 而 非 关键 
F, 并 且 这 些 变量 名 不 是 从 注释 和 串 常数 中 找 出 的 ) 。 每 个 标识 符 要 和 它 所 在 的 那些 行 的 一 列 行 
号 一 起 输出 。 
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4.53 为 一 本 书生 成 一 个 索引 。 输 入 文件 由 一 组 索引 项 组 成 。 每 行 由 串 TX: 组 成 , 后 跟 一 个 索引 项 的 
名 字 ( 封 在 大 括号 内 ) ， 后面 是 封 在 大 括号 内 的 页 号 。 在 索引 项 名 字 中 的 每 个 ! 代表 一 个 子 层 
(sub - level) 。 符 号 “ | (” 代 表 一 个 范围 的 开始 , 而 “| ) ” 则 代表 这 个 范围 的 结束 。 偶 尔 这 个 
范围 是 同一 页 。 在 这 种 情形 下 只 输出 一 个 页 号 。 在 其 他 情况 下 不 要 套 和 至 ,否则 你 自己 就 扩大 了 
范围 。 例 如 , 图 4-75 显示 一 个 样本 输入 , 而 图 4-76 则 显示 对 应 的 输出 。 


: {Series |(} {2} 
: {Series!geometric|(} {4} 
: {Euler's constant} {4} 
: (Series!geometric|)) (4) 
: {Series!arithmetic|(} {4} 


: {Series!arithmetic|)} {5} Euler's constant: 4, 5 
: {Series!harmonic|(} (5) Series: 2-5 

: {Euler's constant} {5} arithmetic: 4-5 

: {Series!harmonic|)} {5} geometric: 4 

: {Series|)} {5} 


harmonic: 5 





图 4-75 练习 4.53 的 样本 输入 图 4-76 练习 4.53 的 样本 输出 
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B 树 首先 出 现在 [6] 中 。 原 始 论文 中 所 描述 的 实现 方法 允许 数据 存储 在 内 部 节点 也 能 存储 在 树叶 上 。 
我 们 描述 过 的 数据 结构 有 时 叫 作 B 树 。[9] 对 不 同类 型 的 B 树 进 行 了 综合 分 析 。[17] 报 告 了 各 种 方案 的 
经 验 性 结果 。 2-3 WA B 树 的 分 析 可 以 在 [4] 、[13] 以 及 [32] 中 找到 。 

练习 4. 17 看 上 去 很 难 。 一 种 解法 可 以 在 [15] 中 找到 。 练 习 4.29 取 自 [31]。 在 练习 4.43 中 描述 的 
B' 树 的 信息 可 以 在 [12] 中 找到 。 练习 4.47 取 自 文献 [2] 。 练 习 4. 48 的 解法 使 用 2N -6 次 旋转 , 该 解法 
在 [29] 中 给 出 。 按 照 练 习 4. 50 的 方式 使 用 的 线索 (threads ) 首先 在 [27 ] 中 提出 。k-d 树 是 最 早 在 [7] 中 提 
出 来 的 , 将 在 本 书 第 12 章 进行 讨论 , 它 处 理 多 维 数据 。 

另外 一 些 流行 的 平衡 查找 树 是 红 黑 树 [ 18 ] 和 赋 权 平衡 树 [26] 。 在 第 12 章 可 以 找到 更 多 的 平衡 树 方 
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我 们 在 第 4 章 讨 论 了 查找 树 ADT, 它 允 许 对 元 素 的 集合 进行 各 种 操作 。 本 章 讨论 散 列 表 
(hash table) ADT, 不 过 它 只 支持 二 又 查找 树 所 允许 的 一 部 分 操作 。 

散 列 表 的 实现 常常 叫 作 散 列 (hashing) 。 散 列 是 一 种 用 于 以 常数 平均 时 间 执 行 插入 、 删 除 和 
查找 的 技术 。 但 是 , 那些 需要 元 素 间 任 何 排序 信息 的 树 操作 将 不 会 得 到 有 效 的 支持 。 因 此 , 诸 
如 findMin, findMax 以 及 以 线性 时 间 将 排 过 序 的 整个 表 进行 打印 的 操作 都 是 散 列 所 不 支持 的 。 

本 章 的 中 心 数据 结构 是 散 列 表 。 我 们 将 

© 看 到 实现 散 列表 的 几 种 方法 。 

e 解析 地 比较 这 些 方法 。 

e 介绍 散 列 的 多 种 应 用 。 

e 将 散 列表 和 二 又 查找 树 进行 比较 。 


5. 1 一 般 想法 


理想 的 散 列表 数据 结构 只 不 过 是 一 个 包含 一 些 项 (item) 的 具有 固定 大 小 的 数组 。 第 4 章 讨 
论 过 , 通常 查找 是 对 项 的 某 个 部 分 ( 即 数据 域 ) 进行 的 。 这 部 分 就 叫 作 关键 字 (key) 。 例 如 , 项 
可 以 由 一 个 串 ( 它 可 以 作为 关键 字 ) 和 其 他 一 些 数据 域 组 成 (例如 , 姓名 是 大 型 雇员 结构 的 一 部 
分 )。 我 们 把 表 的 大 小 记 作 TableSize, 并 将 其 理解 为 散 列 数据 结构 的 一 部 分 , 而 不 仅仅 是 浮动 于 
全 局 的 某 个 变量 。 通 常 的 习惯 是 让 表 从 0 到 TableSize - 1 变化 ; 稍 后 我 们 就 会 明白 为 什么 要 这 
样 做 。 


























每 个 关键 字 被 映射 到 从 0 到 TableSize - 1 这 个 范围 中 的 某 " 
个 数 , 并 且 被 放 到 适当 的 单元 中 。 这 个 映射 就 叫 作 散 列 函数 l 
(hash function) ， 理 想 情况 下 它 应 该 计算 起 来 简单 , 并且 应 该 2 
保证 任何 两 个 不 同 的 关键 字 映 射 到 不 同 的 单元 。 不 过 , 这 是 3 john 25 000 
不 可 能 的 , 因为 单元 的 数目 是 有 限 的 ,而 关键 字 实际 上 是 用 4 phil 31 250 
不 完 的 。 因 此 , 我 们 寻找 一 个 散 列 函数 , 该 函数 要 在 单元 之 
间 均 匀 地 分 配 关键 字 。 图 5-1 是 完美 情况 的 一 个 典型 。 在 这 P ee BY SH 
个 例子 中 ,john 散 列 到 3 phil 散 列 到 4, dave 散 列 到 6, mary 
散 列 到 7。 7 mary 28 200 
这 就 是 散 列 的 基本 想法 。 剩 下 的 问题 就 是 要 选择 一 个 郴 一 一 一 
数 , 决定 当 两 个 关键 字 散 列 到 同一 个 值 的 时 候 ( 这 叫 作 冲突 
(collision) ) 应 该 做 什么 以 及 如 何 确 定 散 列表 的 大 小 。 图 5-1 一 个 理想 的 散 列表 
5.2 散 列 函数 


如 果 输 入 的 关键 字 是 整数 , 则 一 般 合理 的 方法 就 是 直接 返回 Key mod Tablesize, 除非 Key ff 
巧 具有 茶 些 不 合乎 需要 的 性 质 。 在 这 种 情况 下 , 散 列 函数 的 选择 需要 仔细 地 考虑 。 例 如 , 若 表 
的 大 小 是 10 而 关键 字 都 以 0 为 个 位 , 则 此 时 上 述 标准 的 散 列 函数 就 是 一 个 不 好 的 选择 。 其 原因 
我 们 将 在 后 面 看 到 , 而 为 了 避免 上 面 那 样 的 情况 , 好 的 办 法 通常 是 保证 表 的 大 小 是 素数 。 当 输 
入 的 关键 字 是 随机 整数 时 , 散 列 函数 不 仅 计算 起 来 简单 而 且 关键 字 的 分 配 也 很 均匀 。 
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通常 ,关键 字 是 字符 串 ; 在 这 种 情形 下 , 散 列 函数 需要 仔细 地 选择 。 
一 种 选择 方法 是 把 字符 串 中 字符 的 ASCII 码 (或 Unicode 码 ) 值 加 起 来 。 图 5-2 中 的 例 程 实 
现 这 种 策略 。 







public static int hash( String key, int tableSize ) 
{ 
int hashVal = 0; 


for( int i = 0; i < key.length( ); i++ ) 
hashVal += key.charAt( i ); 





return hashVal 5 tableSize; 


CAN DUA UNS 





图 5-2 一 个 简单 的 散 列 函数 


图 5-2. 中 描述 的 散 列 函数 实现 起 来 简单 而 且 能 够 很 快 地 计算 出 答案 。 不 过 ,如 果 表 很 大 ， 
函数 将 不 会 很 好 地 分 配 关键 字 。 例 如 , 设 TableSize = 10 007(10 007 是 素数 ), 并 设 所 有 的 关键 字 
至 多 8 个 字符 长 。 由 于 ASCI 字符 的 值 最 多 是 127, 因此 散 列 函数 只 能 假设 值 在 0 和 1016 之 间 ， 
其 中 1016 为 127 #8。 显然 这 不 是 一 种 均匀 的 分 配 。 

男 一 个 散 列 函数 如 图 5-3 所 示 。 这 个 散 列 函 数 假设 Key 至 少 有 3 个 字符 。 值 27 表示 英文 字 

母 表 的 字母 外 加 一 个 空格 的 个 数 , 而 729 是 27*。 该 函数 只 考查 前 三 个 字符 , 但 是 , 假如 它们 是 

随机 的 ， 而 表 的 大 小 像 前 面 那样 还 是 10 007, 那么 我 们 就 会 得 到 一 个 合理 的 均衡 分 布 。 可 是 不 
巧 的 是 , 英文 不 是 随机 的 。 虽 然 3 个 字符 (忽略 空格 ) 有 26 =17576 种 可 能 的 组 合 , 但 查验 合理 
的 足够 大 的 联机 词典 却 揭示 : 3 个 字母 的 不 同 组 合 数 实际 只 有 2 851。 即 使 这 些 组 合 没有 冲突 ， 
也 不 过 只 有 表 的 28% 被 真正 散 列 到 。 因 此 , 虽然 很 容易 计算 , 但 是 当 散 列表 具有 合理 大 小 的 时 
候 这 个 函数 还 是 不 合适 的 。 

public static int hash( String key, int tableSize ) 

{ 


return ( key.charAt( 0 ) + 27 * key.charAt( 1) + 


729 * key.charAt( 2 ) ) % tableSize; 








图 5- 4 列 出 了 散 列 函数 的 第 3 种 尝试。 这 个 散 列 函数 涉及 关键 字 中 的 所 有 字符 ,并且 一 般 
可 以 分 布 得 很 好 ( 它 计算 i Keyl KeySize -i - 1] +37’ ,并 将 结果 限制 在 适当 的 范围 内 ) 。 程 序 


根据 Horner 法 则 计算 一 个 (37 的 ) 多 项 式 函 数 。 例 如 , 计算 h, = hy € 37k, +37 局 的 另 一 种 方式 
EG DIF ASK h, = (05) #37 +k) #37 +h, HEFT. Horner 法 则 将 其 扩展 到 用 于 n 次 多 项 式 。 

这 个 散 列 函数 利用 到 事实 : 允许 溢出 。 这 可 能 会 引进 负 的 数 , 因此 在 末尾 有 附加 的 测试 。 

图 5-4 所 描述 的 散 列 函数 就 表 的 分 布 而 言 未 必 是 最 好 的 , 但 确实 具有 极其 简单 的 优点 而 
且 速 度 也 很 快 。 如 果 关 键 字 特别 长 , 那么 该 散 列 函数 计算 起 来 将 会 花费 过 多 的 时 间 。 在 这 种 
情况 下 通常 的 经 验 是 不 使 用 所 有 的 字符 。 此 时 关键 字 的 长 度 和 性 质 将 影响 选择 。 例 如 , 关键 
字 可 能 是 完整 的 街道 地 址 , 散 列 函数 可 以 包括 街道 地 址 的 几 个 字符 ,也 许 还 有 城市 名 和 邮政 
编码 的 几 个 字符 。 有 些 程序 设计 人 员 通 过 只 使 用 奇数 位 置 上 的 字符 来 实现 他 们 的 散 列 函 数 ， 
这 里 有 这 么 一 层 想 法 : 用 计算 散 列 函数 节省 下 的 时 间 来 补偿 由 此 产生 的 对 均匀 地 分 布 的 函数 

的 轻微 干扰 。 
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/** 

* A hash routine for String objects. 
* (param key the String to hash. 

* @param tableSize the size of the hash table. 

* Greturn the hash value. 

*/ 

public static int hash( String key, int tableSize ) 
{ 
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int hashVal = 0; 











for( int i = 0; i < key.length( );- i) — 
hashVal = 37 * hashVal + key.charAt( i ); 






hashVal %= tableSize; 
15 if( hashVal « 0 ) 
hashVal *- tableSize; 








return hashVal; 


图 5-4 一 个 好 的 散 列 函数 


剩 下 的 主要 编程 细节 是 解决 冲突 的 消除 问题 。 如 果 当 一 个 元 素 被 插入 时 与 一 个 已 经 插入 的 
元 素 散 列 到 相同 的 值 , 那么 就 产生 一 个 冲突 , 这 个 冲突 需要 消除 。 解 决 这 种 冲突 的 方法 有 几 种 ， 
我 们 将 讨论 其 中 最 简单 的 两 种 : 分 离 链 接 法 和 开放 定 址 法 。 


5.3 分 离 链接 法 


解决 冲突 的 第 一 种 方法 通常 叫 作 分 离 链接 法 ( separate chaining) ， 其 做 法 是 将 散 列 到 同一 个 
值 的 所 有 元 素 保 留 到 一 个 表 中 。 我 们 可 以 使 用 标准 库 表 的 实现 方法 。 如 果 空 间 很 紧 , 则 更 可 取 
的 方法 是 避免 使 用 它们 ( 因为 这 些 表 是 双向 链接 的 并 且 浪 费 空间 )。 本 节 我 们 假设 关键 字 是 前 
10 个 完全 平方 数 并 设 散 列 函 数 就 是 hash(x) =x mod 10( 表 的 大 小 不 是 素数 , 用 在 这 里 是 为 了 简 
PAL), Bg 5-5 对 此 做 出 更 清晰 的 解释 。 

为 执行 一 次 查找 , 我 们 使 用 散 列 函 数 来 确定 究竟 遍历 哪个 链表 。 
然后 我 们 再 在 被 确定 的 链表 中 执行 一 次 查找 。 为 执行 insert, 我 们 
检查 相应 的 链表 看 看 该 元 素 是 否 已 经 处 在 适当 的 位 置 (如 果 允 许 插 入 
重复 元 , 那么 通常 要 留 出 一 个 额外 的 域 , 这 个 域 当 出 现 匹配 事件 时 增 
1) 。 如 果 这 个 元 素 是 个 新 元 素 , 那么 它 将 被 插入 到 链表 的 前 端 , 这 不 
仅 因为 方便 , 还 因为 常常 发 生 这 样 的 事实 ; 新 近 插 入 的 元 素 最 有 可 能 
不 久 又 被 访问 。 

实现 分 离 链 接 法 所 需要 的 类 架构 如 图 5-6 所 示 。 散 列表 存储 一 个 
链表 数组 , 它们 在 构造 方法 中 被 指定 。 图 5-5 分 离 链 接 散 列表 

就 像 二 又 查找 树 只 对 那些 是 Comparable 的 对 象 工作 一 样 , 本 章 中 的 散 列 表 只 对 遵守 确定 
协议 的 那些 对 象 工 作 。 在 Java 中 这 样 的 对 象 必须 提供 适当 equals 方法 和 返回 一 个 int 型 量 
的 hashCode 方法 ,此 时 ,， 散 列表 把 这 个 int 型 量 通过 myHash 转 成 适当 的 数组 下 标 ， 如 
图 5-7 所 示 。 图 5-8 解释 了 Employee 类 , 可 以 将 其 存放 在 一 个 散 列表 中 。 类 Employee 提供 
equals 方法 和 基于 Employee 名 字 的 hashCode 方法 。Employee 类 的 hashCode 通过 使 用 
标准 String Be MA hashCode 来 工作 。 这 个 标准 类 中 的 hashcode 基本 上 是 图 5-4 中 将 
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175| 14175116 行 除去 后 的 程序 。 
uA 图 5-9 列 出 构造 方法 和 方法 makeEmpty。 
实现 contains, insert fll remove 的 例 程 如 图 5-10 所 示 。 
在 插入 例 程 中 , 如 果 被 插入 的 项 已 经 存在 , 那么 我 们 不 执行 任何 操作 ; 否则 , 我 们 将 其 放 和 人 
链表 中 。 该 元 素 可 以 被 放 到 链表 中 的 任何 位 置 ; 在 我 们 的 情形 下 使 用 aaa 方法 是 最 方便 的 。 


public class SeparateChainingHashTable<AnyType> 
{ 


public SeparateChainingHashTable( ) 
{ /* Figure 5.9 «/ ) 

public SeparateChainingHashTable( int size ) 
{ /* Figure 5.9 «/ } 


public void insert( AnyType x ) 
{ /* Figure 5.10 */ } 
public void remove( AnyType x ) 
{ /* Figure 5.10 */ } 
public boolean contains( AnyType x ) 
{ /* Figure 5.10 «/ } 
public void makeEmpty( ) 
{_/* Figure 5.9 */ } 


private static final int DEFAULT TABLE SIZE - 101; 


private List<AnyType> [ ] theLists; 
private int currentSize; 


private void rehash( ) 
{ /* Figure 5.22 */ } 

private int myhash( AnyType x ) 
{ /* Figure 5.7 */ } 


private static int nextPrime( int n ) 
{ /* See online code */ } 

private static boolean isPrime( int n ) 
{ /* See online code */ } 





图 5-6 分 离 链接 散 列 表 的 类 架构 


private int myhash( AnyType x ) 
E 
int hashVal = x.hashCode( ); 


hashVal %= thelists.length; 


if( hashVal « 0 ) 
hashVal += theLists.length; 


CON DU AW NH — 


return hashVal; 


~ 
e 





图 5-7 散 列 表 的 myHash 方法 
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public class Employee 
{ 


public boolean equals( Object rhs ) 
{ return rhs instanceof Employee && name.equals( ((Employee)rhs).name ); } 


public int hashCode( ) 
( return name.hashCode( ); } 


private String name; 
private double salary; 


private int seniority; 


// Additional fields and methods 





图 5-8 可 以 放 在 一 个 散 列 表 中 的 Employee 类 的 例子 


/** 

* Construct the hash table. 

*/ 
public SeparateChainingHashTable( ) 


{ 
this( DEFAULT TABLE SIZE ); 


} 


[** 
* Construct the hash table. 
* @param size approximate table size. 
*/ 
public SeparateChainingHashTable( int size ) 


{ 


= = 
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theLists = new LinkedList[ nextPrime( size ) ]; 
for( int i = 0; i < theLists.length; i++ ) 
thelists[ i ] = new LinkedList<>( ); 


/** 

* Make the hash table logically empty. 
«/ 

public void makeEmpty( ) 

{ 


for( int i = 0; i < theLists.length; i++ ) 
theLists[ i ].clear( ); 
currentSize = 0; 





图 5-9 分 离 链接 散 列 表 的 构造 方法 和 makeEmpty 方法 


除 链表 外 , 任何 方案 都 可 以 解决 冲突 现象 ; 一 棵 二 又 查找 树 或 甚至 男 一 个 散 列表 都 将 胜任 
这 个 工作 , 但 是 , 我 们 期 望 如 果 散 列表 是 大 的 并 且 散 列 函数 是 好 的 , 那么 所 有 的 链表 都 应 该 是 
短 的 , 从 而 任何 复杂 的 尝试 就 都 不 值得 考虑 了 。 
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/** 

* Find an item in the hash table. 

* @param x the item to search for. 

* @return true if x is not found. 

*/ 

public boolean contains( AnyType x ) 

{ 
List<AnyType> whichList = theLists[ myhash( x ) ]; 
return whichList.contains( x ); 


/** 
* Insert into the hash table. If the item is 
* already present, then do nothing. 
* @param x the item to insert. 
*/ 
public void insert( AnyType x ) 
{ 
List<AnyType> whichList = theLists[ myhash( x ) ]; 
if( !whichList.contains( x ) ) 


ewe Sem den) fem dens Ke dia 
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21 { 

22 whichList.add( x ); 

23 

24 // Rehash; see Section 5.5 

25 if( ++currentSize > theLists.length ) 
26 rehash( ); 

27 } 

28 } 

29 

30 /** 

3l * Remove from the hash table. 

32 * @param x the item to remove. 

33 x/ 

34 public void remove( AnyType x ) 

35 { 

36 List<AnyType> whichList = theLists[ myhash( x ) ]; 
37 if( whichList.contains( x ) ) 

38 T as 

39 2 whichList.remove( x ); 

40 currentSize--; 





图 5-10 分 离 链 接 散 列表 的 contains HÆ., insert 例 程 和 remove 例 程 


我 们 定义 散 列表 的 装填 因子 (load factor) 为 散 列表 中 的 元 素 个 数 对 该 表 大 小 的 比 。 在 上 面 

的 例子 中 , =1.0。 链 表 的 平均 长 度 为 M。 执 行 一 次 查找 所 需要 的 工作 是 计算 散 列 函 数值 所 需 

要 的 常数 时 间 加 上 遍历 链表 所 用 的 时 间 。 在 一 次 不 成 功 的 查找 中 , 要 考查 的 节点 数 平均 为 和。 

一 次 成 功 的 查找 则 需要 遍历 大 约 1 + (2) 个 链 。 为 了 看 清 这 一 点 , 注意 被 搜索 的 链表 包含 一 

个 存储 匹配 的 节点 再 加 上 0 个 或 更 多 其 他 的 节点 。 在 NN 个 元 素 的 散 列表 以 及 放 个 链表 中 “其 

他 节点 ”的 期 望 个 数 为 (N-1)AM 2A - VM, 它 基 本 上 就 是 和 , 因为 假设 M 是 大 的 。 平 均 看 来 ， 
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一 半 的 “其 他 ”节点 被 搜索 到 , 再 结合 匹配 节点 , 我 们 得 到 1 + M2 个 节点 的 平均 查找 代价 。 
这 个 分 析 指 出 ， 散 列表 的 大 小 实际 上 并 不 重要 ， 而 装填 因子 才 是 重要 的 。 分 离 链接 散 列 法 的 一 
般 法 则 是 使 得 表 的 大 小 与 预料 的 元 素 个 数 大 致 相等 ( 换 句 话说 , 让 入 =1) 。 在 图 5-10 的 程序 中 ， 
如 果 装 填 因 子 超过 1, 那么 我 们 通过 调用 在 26 行 上 的 rehash 函数 扩大 散 列表 的 大 小 。 
rehash 将 在 5.5 节 讨论 。 正 如 前 面 提 到 的 , 使 表 的 大 小 是 素数 以 保证 一 个 好 的 分 布 , 这 个 想 
法 很 好 。 


5.4 不 用 链表 的 散 列表 


分 离 链 接 散 列 算法 的 缺点 是 使 用 一 些 链表 。 由 于 给 新 单元 分 配 地 址 需要 时 间 ( 特 别 是 在 其 
他 语言 中 ) , 因此 这 就 导致 算法 的 速度 有 些 减 慢 , 同时 算法 实际 上 还 要 求 对 第 二 种 数据 结构 的 
实现 。 另 有 一 种 不 用 链表 解决 冲突 的 方法 是 尝试 另外 一 些 单元 , 直到 找 出 空 的 单元 为 止 。 更 常 
见 的 是 , HIE h(x), h (x), ho (x), e AARRE, 其 中 h(x) = (hash(x) +f(i)) mod 
TableSize, Hf(0) =0。 函 数 1 是 冲突 解决 方法 。 因 为 所 有 的 数据 都 要 置 人 表 内 ,所 以 这 种 解决 
方案 所 需要 的 表 要 比分 离 链 接 散 列 的 表 大 。 一 般 说 来 , 对 于 不 使 用 分 离 链 接 的 散 列表 来 说 , 其 
装填 因子 应 该 低 于 入 =0.5。 我 们 把 这 样 的 表 叫 作 探 测 散 列表 ( probing hash table) 。 现 在 我 们 就 
来 考察 三 种 通常 的 冲突 解决 方案 。 
5.4.1 线性 探测 法 

在 线性 探测 法 中 ,函数 /是 i 的 线性 函数 , 典型 情形 是 f(i) 2i, 这 相当 于 相继 探测 逐个 单 
元 (必要 时 可 以 回 绕 ) 以 查找 出 一 个 空 单元 。 图 5-11 显示 使 用 与 前 面相 同 的 散 列 函 数 将 各 个 关 
键 字 |89, 18, 49, 58, 69| 插 入 到 一 个 散 列表 中 的 情况 , 而 此 时 的 冲突 解决 方法 就 是 f(i) =i。 











Empty Table After 89 After 18 After 49 After 58 After 69 
0 49 49 49 
1 58 58 
2 69 
3 
4 
5 
6 
7 
8 18 18 18 18 
9 89 89 89 89 89 





图 5-11 每 次 插入 后 使 用 线性 探测 得 到 的 散 列表 


第 一 个 冲突 在 插入 关键 字 49 时 产生 ; 它 被 放 入 下 一 个 空闲 地 址 , 即 地 址 0, 该 地 址 是 开放 
Ho KEEF 58 先 与 18 冲突 , 再 与 89 冲突 , 然后 又 和 49 冲突 , 试 选 三 次 之 后 才 找 到 一 个 空 单 
Tho Xt 69 的 冲突 用 类 似 的 方法 处 理 。 只 要 表 足 够 大 , 总 能 够 找到 一 个 自由 单元 , 但 是 如 此 花费 
的 时 间 是 相当 多 的 。 更 糟 的 是 ， 即使 表 相 对 较 空 ,这 样 占据 的 单元 也 会 开始 形成 一 些 区 块 , 其 
结果 称 为 一 次 聚集 ( primary clustering) ,就 是 说 , 散 列 到 区 块 中 的 任何 关键 字 都 需要 多 次 试 选单 
元 才能 够 解决 冲突 , 然后 该 关键 字 被 添加 到 相应 的 区 块 中 。 

虽然 我 们 不 在 这 里 进行 具体 计算 , 但 是 可 以 证 明 , 使 用 线性 探测 的 预期 探测 次 数 对 于 插入 和 


不 成 功 的 查找 来 说 大 约 为 也 (1+1/(1 -入 )?) ,而 对 于 成 功 的 查找 来 说 则 是 二 (1+1ZX(1 -和 ))。 相 


关 的 一 些 计 算 多 少 有 些 复杂 。 从 程序 中 容易 看 出 , 插入 和 不 成 功 查找 需要 相同 次 数 的 探测 。 略 
加 思考 不 难得 出 , 成 功 查找 应 该 比 不 成 功 查找 平均 花费 较 少 的 时 间 。 
如 果 聚 集 不 算是 问题 , 那么 对 应 的 公式 就 不 难得 到 。 我 们 假设 有 一 个 很 大 的 散 列 表 , 并 设 
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每 次 探测 都 与 前 面 的 探测 无 关 。 对 于 随机 冲突 解决 方法 而 言 , 这 些 假设 是 成 立 的 , 并 且 当 入 不 
是 非常 接近 于 1 时 也 是 合理 的 。 首 先 , 我 们 导出 在 一 次 不 成 功 查 找 中 探测 的 期 望 次 数 , 而 这 正 
是 直到 我 们 找到 一 个 空 单元 的 探测 的 期 望 次 数 。 由 于 空 单元 所 占 的 份额 为 1 -入 , 因此 我 们 预计 
要 探测 的 单元 数 是 1/(1 -入 ) 。 一 次 成 功 查找 的 探测 次 数 等 于 该 特定 元 素 插 人 时 所 需要 的 探测 
次 数 。 当 一 个 元 素 被 插入 时 , 可 以 看 成 进行 一 次 不 成 功 查找 的 结果 。 因 此 , 我 们 可 以 使 用 一 次 
不 成 功 查找 的 开销 来 计算 一 次 成 功 查找 的 平均 开销 。 

需要 指出 的 是 ,入 从 0 到 当前 值 之 间 变 化 , 因此 早期 的 插入 操作 开销 较 少 , 从 而 将 平均 开销 
拉 低 。 例 如 , 在 上 面 的 图 5-11 中 , A 20.5, 访问 18 的 开销 是 在 18 被 插入 时 确定 的 , 此 时 入 = 
0.2。 由 于 18 是 插入 到 一 个 相对 空 的 散 列表 中 ,因此 对 它 的 访问 应 该 比 新 近 插 入 的 元 素 ( 比如 
69) 的 访问 更 容易 。 我 们 可 以 通过 使 用 积分 计算 插入 时 间 平 均值 的 方法 来 估计 平均 值 ， 如 此 
得 到 : 

IP 1 1, 1 
nass H ies 1h 

这 些 公式 显然 优 于 线性 探测 那些 相应 的 公式 。 聚 集 不 仅 是 理论 上 的 问题 ,而 且 实际 上 也 发 生 在 
具体 的 实现 中 。 图 5-12 把 线性 探测 的 性 能 ( 虚 曲线 ) 与 从 更 随机 的 冲突 解决 方法 中 期 望 的 性 能 
作 了 比较 。 成 功 的 查找 用 S 标记 , 不 成 功 查找 和 插 和 人 分 别 用 局 和 7 标记 。 
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图 5-12 对 线性 探测 (虚线 ) 和 随机 方法 的 装填 因子 画 出 的 探测 次 数 
(S 为 成 功 查 找 , U 为 不 成 功 查 找 , 1 为 插入 ) 


”如 果 入 =0.75, 那么 上 面 的 公式 指出 在 线性 探测 中 一 次 插入 预计 8.5 次 探测 。 如 果 入 =0.9， 
则 预计 为 50 次 探测 , 这 就 不 切实 际 了 。 假 如 聚集 不 是 问题 , 那么 这 可 与 相应 的 装填 因子 的 4 次 
和 10 次 探测 相 比 。 从 这 些 公式 看 到 , 如 果 表 可 以 有 多 于 一 半 被 填 满 的 话 , 那么 线性 探测 就 不 是 
个 好 办 法 。 然 而 , 如 果 入 =0.5, 那么 插入 操作 平均 只 需要 2.5 次 探测 , 并 且 对 于 成 功 的 查找 平 
均 只 需要 1.5 次 探测 。 

5.4.2 平方 探测 法 

平方 探测 是 消除 线性 探测 中 一 次 聚集 问题 的 冲突 解决 方法 。 平方 探测 就 是 冲突 函数 为 二 次 
的 探测 方法 。 流 行 的 选择 是 f(i) =i. K 5-13 显示 与 前 面 线性 探测 例子 相同 的 输入 使 用 该 冲突 
函数 所 得 到 的 散 列表 。 

当 49 与 89 冲突 时 , 其 下 一 个 位 置 为 下 一 个 单元 , 该 单元 是 空 的 , 因此 49 就 被 放 在 那里 。 
此 后 , 58 在 位 置 8 处 产生 冲突 , 其 后 相 邻 的 单元 经 探测 得 知 发 生 了 另外 的 冲突 。 下 一 个 探测 的 
单元 在 距 位 置 8 Jy 2^ =4 远 处 , 这 个 单元 是 个 空 单元 。 因 此 , 关键 字 58 就 放 在 单元 2 处 。 对 于 
关键 字 69 ,处理 的 过 程 也 一 样 。 

对 于 线性 探测 , 让 散 列 表 几 乎 填 满 元 素 并 不 是 个 好 主意 , 因为 此 时 表 的 性 能 会 降低 。 对 于 平 
方 探测 情况 甚至 更 糟 ; 一 旦 表 被 填充 超过 一 半 ， 当 表 的 大 小 不 是 素数 时 甚至 在 表 被 填充 一 半 之 前 ， 
就 不 能 保证 一 次 找到 空 的 单元 了 。 这 是 因为 最 多 有 表 的 一 半 可 以 用 作 和 解决 冲突 的 备 选 位 置 。 
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Empty Table After 89 After 18 After 49 After 58 After 69 
49 49 49 


58 58 
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图 5-13 在 每 次 插 人 后 , 利用 平方 探测 得 到 的 散 列 表 
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我 们 现在 就 来 证 明 , 如 果 表 有 一 半 是 空 的 , 并 且 表 的 大 小 是 素数 , 那么 我 们 保证 总 能 够 插 
人 一 个 新 的 元 素 。 

定理 5. 1 如 果 使 用 平方 探测 , 且 表 的 大 小 是 素数 , 那么 当 表 至 少 有 一 半 是 空 的 时 候 , 总 能 
够 插入 一 个 新 的 元 素 。 

WERA: 

令 表 的 大 小 TableSize 是 一 个 大 于 3 的 ( 奇 ) 素 数 。 我 们 证 明 , 前 [ TableSize/2 | 个 备 选 位 置 ( 包 
括 初 始 位 置 h,(x) ) 是 互 异 的 。h(x) +i (mod TableSize) Al h(x) +j’ (mod TableSize) 是 这 些 位 置 
中 的 两 个 , 其 中 0<i, je TableSize/2 |, AHEM AIS, 假设 这 两 个 位 置 相同 , 但 ij, 于 是 


h(x) +i =h(x) +f (mod TableSize ) 
Puy (mod TableSize ) 

i -j =0 (mod TableSize ) 
(i-]) (Gi *j) 20 ( mod TableSize ) 


由 于 TableSize 是 素数 , 因此 , BA (i —j) SET 0( mod TableSize) SZ (i +7) -F 0( mod TableSize) 。 
既然 i 和 j 是 互 异 的 , 那么 第 一 个 选择 是 不 可 能 的 。 但 0<i, j<L TableSize/2 |, 因此 第 二 个 选择 
也 是 不 可 能 的 。 从 而 , 前 [ TableSize/2 | 个 备 选 位 置 是 互 异 的 。 如 果 最 多 有 | TableSize/2 个 位 置 被 
使 用 , 那么 空 单 元 总 能 够 找到 。 LJ 

即使 表 被 填充 的 位 置 仅仅 比 一 半 多 一 个 , 那么 插入 都 有 可 能 失败 (虽然 这 是 非常 难于 见 到 
的 )。 因 此 , 把 它 记 住 很 重要 。 另 外 , 表 的 大 小 是 素数 也 非常 重要 。 如 果 表 的 大 小 不 是 素数 ， 
则 备 选单 元 的 个 数 可 能 会 锐 减 。 例 如 , 若 表 的 大 小 是 16, 那么 备 选单 元 只 能 在 距 散 列 值 1, 4 或 
9 远 处 。 

在 探测 散 列表 中 标准 的 删除 操作 不 能 执行 , 因为 相应 的 单元 可 能 已 经 引起 过 冲突 , 元 素 绕 
过 它 存在 了 别处 。 例 如 , 如 果 我 们 删除 S9, 那么 实际 上 所 有 剩 下 的 contains 操作 都 将 失败 。 
因此 , 探测 散 列表 需要 懒惰 删除 , 不 过 在 这 种 情况 下 实际 上 并 不 存在 所 意味 的 懒惰 。 

实现 探测 散 列 表 所 需要 的 类 架构 如 图 5-14 中 所 示 。 这 里 , 我 们 不 用 链表 数组 , 而 是 使 用 散 
列表 项 单元 的 数组 , 它们 也 在 图 5-14 中 表 出 。HashEntry 引用 数组 的 每 一 项 是 下 列 3 种 情形 
Z>-: 

I Tl 

2. JEnull, 且 该 项 是 活动 的 (isActive Jy true), 





加 ”如果 表 的 大 小 是 形 如 4k+3 的 素数 , 且 使 用 的 平方 冲突 解决 方法 为 F(i) = £C, 那么 整个 表 均 可 被 探测 到 。 
其 代价 则 是 例 程 要 略微 复杂 。 
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3. dEnull, 且 该 项 标记 被 删除 (isaActive W false). 





public class QuadraticProbingHashTable<AnyType> 
{ 
public QuadraticProbingHashTable( ) 
{ /* Figure 5.15 */ } 
public QuadraticProbingHashTable( int size ) 
{ /* Figure 5.15 */ } 
public void makeEmpty( ) 
{ /* Figure 5.15 */ } 


public boolean contains( AnyType x ) 
{ /* Figure 5.16 */ } 

public void insert( AnyType x ) 
{ /* Figure 5.17 */ } 

public void remove( AnyType x ) 
{ /* Figure 5.17 «/ } 


private static class HashEntry<AnyType> 
{ 
public AnyType element; // the element 
public boolean isActive; // false if marked deleted 


public HashEntry( AnyType e ) 
( this( e, true ); ) 


public HashEntry( AnyType e, boolean i ) 
{ element = e; isActive = i; } 


private static final int DEFAULT TABLE SIZE = 11; 


private HashEntry<AnyType> [ ] array; // The array of elements 
private int currentSize; // The number of occupied cells 


private void allocateArray( int arraySize ) 
( /x Figure 5.15 */ } 

private boolean isActive( int currentPos ) 
{ /* Figure 5.16 */ } 

private int findPos( AnyType x ) 
(- /*-Figure 5.16 «/ ) 

private void rehash( ) 
{ /* Figure 5.22 */ } 


private int myhash( AnyType x ) 
{ /* See online code */ } 

private static int nextPrime( int n ) 
{ /* See online code «/ } 

private static boolean isPrime( int n ) 
{ /* See online code */ } 


图 5-14 使 用 探测 方法 的 散 列表 的 类 架构 , fud CES HashEntry 类 
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该 表 ( 图 5-15 ) 的 构造 由 分 配 空间 然后 设置 每 个 HashEntzy 引用 为 null 组 成 。 


/** 
* Construct the hash table. 
*/ 
public QuadraticProbingHashTable( ) 


{ 
this( DEFAULT TABLE SIZE ); 


} 


| ** 
* Construct the hash table. 
* @param size the approximate initial size. 
*/ 
public QuadraticProbingHashTable( int size ) 
{ 


~ 
STU AN DU aA WN 一 


~ 
~ 


allocateArray( size ); 
makeEmpty( ); 


/** 

* Make the hash table logically empty. 
x/ 

public void makeEmpty( ) 

{ 


12 
13 
14 
15 
16 
17 
18 
19 
20 
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currentSize = 0; 
for( int i = 0; i < array.length; i++ ) 
array[ i ] = null; 


N N 
ON VA 


N 
~g 


/** 
* Internal method to allocate array. 
* (param arraySize the size of the array. 
x/ 
private void allocateArray( int arraySize ) 
{ 
array = new HashEntry[ nextPrime( arraySize ) ]; 


) 





5-15. 初始 化 散 列表 的 例 程 


在 图 5- 16 中 所 示 的 contains (x) 调 用 私有 方法 isActive 和 findPos, ix H W 
private 方法 findPos 实施 对 冲突 的 解决 。 我 们 肯定 在 insert 例 程 中 散 列 表 至 少 为 该 表 中 
元 素 个 数 的 两 倍 大 , 这 样 平方 探测 解决 方案 总 可 以 实现 。 在 图 5-16 的 实现 中 , 标记 为 删除 的 那 
些 元 素 被 认为 还 在 表 内 。 这 可 能 引起 一 些 问题 , 因为 该 表 可 能 提前 过 满 。 我们 现在 就 来 讨 

第 25 行 到 第 28 行为 进行 平方 探测 的 快速 方法 。 由 平方 解决 函数 的 定义 可 知 , f) =f- 
1) «2i -1, 因此 , 下 一 个 要 探测 的 单元 离 上 一 个 被 探测 过 的 单元 有 一 段 距 离 , 而 这 个 距离 在 连 
续 探测 中 增 2。 如 果 新 的 定位 越过 数组 , 那么 可 以 通过 减 去 TableSize 把 它 拉 回 到 数组 范围 内 。 
这 比 通常 的 方法 要 快 , 因为 它 避 免 了 看 似 需 要 的 乘法 和 除法 。 注 意 一 条 重要 的 警告 : 第 22 £D 
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第 23 行 的 测试 顺序 很 重要 , 切 勿 改变 它 ! 
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最 后 的 例 程 是 插入 。 正 如 分 离 链 接 散 列 方法 那样 , A x CATE, 则 我 们 就 什么 也 不 做 。 
有 些 工作 也 只 是 简单 的 修正 。 和 否则 , 我 们 就 把 要 插入 的 元 素 放 在 findPos 例 程 指出 的 地 方 。 
程序 在 图 5-17 中 显示 。 如 果 装 填 因子 超过 0. 5, 则 表 是 满 的 , 需要 将 该 散 列 表 放 大 。 这 称 为 再 


[** 

* Find an item in the hash table. 

* @param x the item to search for. 

* @return the matching item. 

*/ 

public boolean contains( AnyType x ) 

{ 
int currentPos = findPos( x ); 
return isActive( currentPos ); 





/** 
* Method that performs quadratic probing resolution in half-empty table. 
* (param x the item to search for. 
* @return the position where the search terminates. 
*/ 
private int findPos( AnyType x ) 
{ 
int offset = 1; 
int currentPos = myhash( x ); 


while( array[ currentPos ] != null && 
larray[ currentPos ].element.equals( x ) ) 
{ 
currentPos += offset; // Compute ith probe 
offset += 2; 
if( currentPos >= array.length ) 
currentPos -= array.length; 


return currentPos; 


/xx 

* Return true if currentPos exists and is active. 

* @param currentPos the result of a call to findPos. 
* @return true if currentPos is active. 

*/ - 

private boolean isActive( int currentPos ) 


{ 





return array[ currentPos ] != null && array[ currentPos ].isActive; 


5-16 使 用 平方 探测 进行 散 列 的 contains 例 程 (及 两 个 private 型 支撑 方法 ) 


散 列 ( rehashing) , 我 们 将 在 5.5 节 进 行 讨论 。 





[** 
* Insert into the hash table. If the item is 
* already present, do nothing. 
* @param x the item to insert. 
*/ 
public void insert( AnyType x ) 
{ 
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// Insert x as active 
int currentPos = findPos( x ); 
if( isActive( currentPos ) ) 
return; 


array[ currentPos ] = new HashEntry<>( x, true ); 


// Rehash; see Section 5.5 
if(currentSize > array.length / 2 ) 
rehash( ); 


| ** 
* Remove from the hash table. 
* @param x the item to remove. 
*/ 
public void remove( AnyType x ) 
{ 
int currentPos = findPos( x ); 
if( isActive( currentPos ) ) 
array[ currentPos ].isActive = false; 





图 5-17 使 用 平方 探测 散 列表 的 insert BRE 


虽然 平方 探测 排除 了 一 次 聚集 , 但 是 散 列 到 同一 位 置 上 的 那些 元 素 将 探测 相同 的 备 选单 
元 。 这 叫 作 二 次 聚集 ( secondary clustering) 。 二 次 聚集 是 理论 上 的 一 个 小 缺憾 。 模 拟 结果 指出 ， 
对 每 次 查找 , 它 一 般 要 引起 另外 的 少 于 一 半 的 探测 。 下 面 的 技术 将 会 排除 这 个 缺憾 , 不 过 这 要 
付出 计算 一 个 附加 的 散 列 函数 的 代价 。 

5.4.3 WIKA 

我 们 将 要 考察 的 最 后 一 个 冲突 解决 方法 是 双 散 列 ( double hashing)。 对 于 双 散 列 , 一 种 流行 的 
选择 是 f(i) =i * hash,(x)。 这 个 公式 是 说 , 我 们 将 第 二 个 散 列 函数 应 用 到 x 并 在 距离 hash, (x) , 
hash, (x), = FARW, hash, (x) 选择 得 不 好 将 会 是 灾难 性 的 。 例 如 , EE 99 插入 到 前 面 例 
子 中 的 输入 中 去 , 则 通常 的 选择 hash, (x) =x mod 9 将 不 起 作用 。 因 此 ,函数 一 定 不 要 算得 0 
值 。 另 外 , 保证 所 有 的 单元 都 能 被 探测 到 也 是 很 重要 的 (但 在 下 面 的 例子 中 这 是 不 可 能 的 , 因为 
表 的 大 小 不 是 素数 ) 。 诸 如 hash, (x) =R- (x mod R) 这 样 的 函数 将 起 到 良好 的 作用 , HEP R Oy 
小 于 TableSize 的 素数 。 如 果 我 们 选择 R=7, 则 图 5-18 显示 插入 与 前 面相 同 的 一 些 关键 字 的 
结果 。 

第 一 个 冲突 发 生 在 49 被 插入 的 时 候 。hash,( 和 9) 27 -0 =7, 149 PAA BI 6, hash, (58) = 
7-2=5, 于 是 58 被 插入 到 位 置 3。 最 后 , 69 产生 冲突 ,从 而 被 插入 到 距离 为 hash, (69) =7-6=1 
远 的 地 方 。 如 果 我 们 试图 将 60 插入 到 位 置 0 处 , 那么 就 会 产生 一 个 冲突 。 由 于 hash, (60) 27 - 
4=3, 因此 我 们 尝试 位 置 3、6、9, 然后 是 2, 直到 找 出 一 个 空 的 单元 。 一 般 是 有 可 能 发 现 某 个 坏 
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情形 的 , 不 过 这 里 没有 太 多 这 样 的 情形 。 








Empty Table After 89 After 18 After 49 After 58 After 69 
0 69 
1 
2 
3 58 58 
4 
5 
6 49 49 49 
7 
8 18 18 18 18 
9 89 89 89 89 89 








图 5-18 使 用 双 散 列 方法 在 每 次 插 人 后 的 散 列表 


前 面 已 经 提 到 ,上 面 的 散 列表 实例 的 大 小 不 是 素数 。 我 们 这 么 做 是 为 了 计算 散 列 函 数 时 方 
便 , 但 是 , 有 必要 了 解 在 使 用 双 散 列 时 为 什么 保证 表 的 大 小 为 素数 是 很 重要 的 。 如 果 想 要 把 23 
插入 到 表 中 , 那么 它 就 会 与 58 发 生 冲突 。 由 于 hash,(23) =7 -2 =5, 且 该 表 大 小 是 10, 因此 我 
们 实际 上 只 有 一 个 备 选 位 置 , 而 这 个 位 置 已 经 被 使 用 了 。 因 此 ,如 果 表 的 大 小 不 是 素数 , 那么 
备 选单 元 就 有 可 能 提前 用 完 。 然 而 , 如 果 双 散 列 正确 实现 , 则 模拟 表明 , 预期 的 探测 次 数 几 乎 
和 随机 冲突 解决 方法 的 情形 相同 。 这 使 得 双 散 列 理论 上 很 有 吸引 力 。 不 过 , 平方 探测 不 需要 使 
用 第 二 个 散 列 函数 ,从 而 在 实践 中 使 用 可 能 更 简单 并 且 更 快 ,特别 对 于 像 串 这 样 的 关键 字 , 它 
们 的 散 列 函 数 计算 起 来 相当 耗 时 。 


5.5 再 散 列 


对 于 使 用 平方 探测 的 开放 定 址 散 列 法 , 如 果 散 列表 填 得 太 满 , 那么 操作 的 运行 时 间 将 开始 
消耗 过 长 , 且 插 入 操作 可 能 失败 。 这 可 能 发 生 在 有 太 多 的 移动 和 插入 混合 的 场合 。 此 时 , 一 种 
解决 方法 是 建立 另外 一 个 大 约 两 倍 大 的 表 ( 而 且 使 用 一 个 相关 的 新 散 列 函 数 ), 扫描 整个 原始 散 
列表 , 计算 每 个 (未 删除 的 ) 元素 的 新 散 列 值 并 将 其 插入 到 新 表 中 。 

例如 , 设 将 元 素 13、15、24 和 6 插入 到 大 小 为 7 的 线性 探测 散 列表 中 。 散 列 函数 是 h(x) = 
x mod 7。 设 使 用 线性 探测 方法 解决 冲突 问题 。 插 入 结果 得 到 的 散 列表 如 图 5-19 所 示 。 

如 果 将 23 插入 表 中 , 那么 图 5-20 中 插入 后 的 表 将 有 超过 70% 的 单元 是 满 的 。 因 为 散 列 表 
太 满 , 所 以 我 们 建立 一 个 新 的 表 。 该 表 大 小 所 以 为 17, 是 因为 17 是 原 表 大 小 两 倍 后 的 第 一 个 素 
数 。 新 的 散 列 函 数 为 (x)-=x mod I7。 扫 描 原 来 的 表 , 并 将 元 素 6、15、23、24 和 13 插入 到 新 
表 中 。 最 后 得 到 的 表 见 图 5-21。 

整个 操作 就 叫 作 再 散 列 ( rehashing)。 显 然 这 是 一 种 开销 非常 大 的 操作 ; 其 运行 时 间 为 
O(N) ,因为 有 个 元 素 要 再 散 列 而 表 的 大 小 约 为 2N, 不 过 , 由 于 不 是 经 常 发 生 , 因此 实际 效果 
根本 没有 这 么 差 。 特 别 是 在 最 后 的 再 散 列 之 前 必然 已 经 存在 N/2 次 insert, 因此 添加 到 每 个 
插入 上 的 花费 基本 上 是 一 个 常数 开销 。 如 果 这 种 数据 结构 是 程序 的 一 部 分 , 那么 其 影响 是 不 
明显 的 。 另 一 方面 ,如果 再 散 列 作为 交互 系统 的 一 部 分 运行 , 那么 其 插入 引起 再 散 列 的 不 幸 用 
户 将 会 感到 速度 减 慢 。 





日 ”这 就 是 为 什么 新 表 要 做 成 老 表 两 倍 大 的 原因 。 
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图 5-20 ”使 用 线性 探测 插入 23 后 的 散 列 表 图 5-21 在 再 散 列 之 后 的 线性 探测 散 列 表 


再 散 列 可 以 用 平方 探测 以 多 种 方法 实现 。 一 种 做 法 是 只 要 表 满 到 一 半 就 再 散 列 。 另 一 种 极 
端的 方法 是 只 有 当 插 人 失败 时 才 再 散 列 。 第 三 种 方法 即 途中 (middle-of- the- road) 策略 : 当 散 列 
表 到 达 某 一 个 装填 因子 时 进行 再 散 列 。 由 于 随 着 装填 因子 的 增长 散 列 表 的 性 能 确实 下 降 , 因 
Jt, 以 好 的 截止 手段 实现 的 第 三 种 策略 ， 可 能 是 最 好 的 策略 。 
对 于 分 离 链 接 散 列表 其 再 散 列 是 类 似 的 。 图 5-22 显示 再 散 列 实现 起 来 是 简单 的 , 并 且 还 对 
分 离 链 接 再 散 列 提 供 一 种 实现 方法 。 


/** 
* Rehashing for quadratic probing hash table. 
*/ 

private void rehash( ) 


{ 
HashEntry<AnyType> [ ] oldArray = array; 


// Create a new double-sized, empty table 
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allocateArray( nextPrime( 2 * oldArray.length ) ); 
currentSize = 0; 


// Copy table over 
for( int i = 0; i < oldArray.length; i++ ) 
if( oldArray[ i ] != null && oldArray[ i ].isActive ) 
insert( oldArray[ i ].element ); 





图 S-22 ”对 分 离 链接 散 列表 和 探测 散 列 表 的 再 散 列 
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fik 
* Rehashing for separate chaining hash table. 
*/ 

private void rehash( ) 


{ 
List<AnyType> [ ] oldLists = theLists; 


// Create new double-sized, empty table 


theLists = new List[ nextPrime( 2 * theLists.length ) ]; 
for( int j = 0; j < theLists.length; j++ ) 
thelists[ j ] = new LinkedList<>( ); 


// Copy table over 
currentSize - 0; 
for( int i = 0; i < oldLists.length; i++ ) 
for( AnyType item : oldLists[ i ] ) 
insert( item ); 





图 5-22 ( 续 ) 


5.6 标准 库 中 的 散 列表 


标准 库 包 括 Set 和 Map 的 散 列 表 的 实现 , Bl HashSet 类 和 HashMap 类 。Hashset 中 的 
(ak HashSet 中 的 关键 字 ) 必须 提供 equals 方法 和 hashCode H, 如 较 早 我 们 在 节 5.3 
所 描述 的 那样 。HashSet 和 HashMap 通常 是 用 分 离 链接 散 列 实现 的 。 

如 果 这 些 表 项 是 否 可 以 依 有 序 方式 查看 这 一 点 并 不 重要 , 那么 这 些 类 可 以 使 用 。 例 如 , 在 
4. 8 节 的 单词 变换 例子 中 , 存在 三 种 映射 : 

l. 其 中 关键 字 为 单词 长 度 (word length) ， 而 关键 字 的 值 是 长 为 该 单词 长 度 的 所 有 单词 
的 集合 。 

2. 关键 字 是 一 个 代表 (representative , ， 而 关键 字 的 值 是 具有 该 代表 的 所 有 单词 的 集合 。 

3. 关键 字 是 一 个 单词 (word) ， 而 关键 字 的 值 是 与 该 单词 只 有 一 个 字母 不 同 的 所 有 单词 
的 集合 。 

因为 单词 长 度 被 处 理 的 顺序 并 不 重要 , 所 以 第 1 个 映射 可 以 是 HashMap。 而 由 于 第 2 个 映 
射 建立 以 后 甚至 不 需要 代表 , 因此 第 2 个 映射 也 可 以 是 HashMap。 第 3 个 映射 还 可 以 是 
HashMap ， 除 非 我 们 想 要 printHighChangeables 依 字母 顺序 列 出 单词 的 子 集 (这 些 单词 可 
以 被 变换 成 许多 其 他 单词 ) 。 

HashMap 的 性 能 常常 优 于 TreeMap 的 性 能 , 不 过 不 按 这 两 种 方式 编写 代码 很 难 有 把 握 肯 
定 。 因 此 , 在 HashMap 或 TreeMap 可 以 接受 的 情况 下 , 更 可 取 的 方法 是 : 使 用 接口 类 型 Map 
进行 变量 的 声明 , 然后 , 将 TreeMap 的 实例 变 成 HashMap 的 实例 并 进行 计时 测试 。 

在 Java 中 , 能 够 被 合理 地 插入 到 一 个 Hashset 中 去 或 是 所 谓 关键 字 被 插入 到 HashMap 中 
去 的 那些 库 类 型 已 经 被 定义 了 equals 和 hashCode 方法 。 特 别 是 String 类 中 有 一 个 
hashCode 方法 , 它 基 本 上 就 是 图 5-4 中 除 掉 第 14 行 到 第 16 行 并 将 第 37 行 用 第 31 行 代替 后 的 
程序 。 因 为 散 列表 操作 中 费时 多 的 部 分 就 是 计算 hashCode 方法 , 所 以 在 String 类 中 的 
hashCode 方法 包含 一 个 重要 的 优化 : 每 个 String 对 象 内 部 都 存储 它 的 hashCode 值 。 该 值 
初始 为 0, 但 若 hashCode 被 调用 , 那么 这 个 值 就 被 记 住 。 因 此 ,如果 hashCode 对 同一 
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个 String 对 象 被 第 2 次 计算 , 我 们 则 可 以 避免 昂贵 的 重新 计算 。 这 个 技巧 叫 作 闪存 散 列 代码 
(caching the hash code) ,并 且 表 示 另 一 种 经 典 的 时 空 交换 。 图 5-23 显示 闪存 散 列 代 码 的 
String 类 的 一 种 实现 。 


public final class String 
{ 
public int hashCode( ) 
{ 


if( hash != 0 ) 
return hash; 


for( int i = 0; i < length(-); ie | 
hash = hash * 31 + (int) charAt( i ); 
return hash; 


} 


private int hash = 0; 


} 





图 $-23 String 类 hashCode 摘录 


闪存 散 列 代码 之 所 以 有 效 ， 只 是 因为 sting 类 是 不 可 改变 的 : 要 是 String 允许 变化 , 那 
么 它 就 会 使 hashCode 无 效 , 而 hashCode 就 只 能 重 置 回 0。 虽 然 两 个 具有 相同 状态 的 
String 对 象 的 hashCode 必须 独立 计算 , 但 是 , 存在 许多 情况 使 同一 个 String 对 象 的 散 列 
代码 总 是 被 查询 。 闪 存 散 列 代码 有 用 的 一 种 情况 是 在 再 散 列 期 间 发 生 , 因为 在 再 散 列 中 所 涉及 
的 所 有 String 对 象 的 散 列 代码 都 已 经 闪存 过 。 另 一 方面 , 闪存 散 列 代码 对 于 单词 变换 例子 中 
的 代表 映射 ( representative map) 是 无 用 的 。 每 个 代表 都 是 通过 从 一 个 更 大 的 string 中 删除 一 
个 字母 所 计算 出 的 一 个 不 同 的 String, 因此 每 一 个 String 只 能 让 它 的 散 列 代码 单独 计算 。 
然而 , 在 第 3 个 映射 中 , 闪存 散 列 代码 没有 什么 用 处 ,因为 那些 关键 字 都 只 是 些 string, 它们 
被 存放 在 String 的 原始 数组 中 。 


5.7 最 坏 情 形 下 O(1 ) 访问 的 散 列 表 


目前 我 们 讨论 过 的 散 列表 都 具有 的 性 质 是 ， 当 有 合理 的 装填 因子 和 合适 的 散 列 函 数 时 ， 可 
以 期 望 插 入 、 删 除 和 查找 的 平均 花 销 都 是 0(1)。 但 在 假设 散 列 函数 表现 良好 的 前 提 下 ， 查 找 
的 最 坏 情 形 的 期 望 值 是 多 少 ? 

对 分 离 链 接 法 而 言 ， 假 设 装填 因子 为 1， 这 就 是 经 典 的 球 盒 问 题 的 一 个 版 本 : 给 定 N 个 |o: 
球 ，( 均 匀 ) 随 机 地 放 在 入 个 盒子 里 ,在 装 球 最 多 的 盒子 里 ， 球 的 个 数 的 期 望 值 是 多 少 ? gg 192 
是 著名 的 O(log N/log log N) ， 意 即 平均 而 言 ， 我 们 期 望 部 分 查询 会 花费 近乎 对 数 级 的 时 间 。 

对 于 探测 散 列 表 中 的 最 长 期 望 探测 序列 ， 也 可 观察 到 (或 证 明 ) 相似 类 型 的 上 界 。 

我 们 想 要 得 到 OCT) 的 最 坏 情 形 的 花 销 。 在 某 些 应 用 中 ， 如 路 由 器 和 内 存 缓 存 的 查找 表 的 
硬件 实现 ， 令 查找 具有 确定 的 (例如 常数 级 的 ) 完 成 时 间 是 特别 重要 的 。 假 设 我 们 事先 知道 N 
的 值 ， 于 是 不 需要 再 散 列 。 如 果 我 们 可 以 在 插入 的 过 程 中 重新 排列 各 项 ， 则 查找 的 0(1) 最 坏 
情形 花 销 是 可 以 达到 的 。 

本 节 随 后 将 描述 这 个 问题 的 最 早 的 解法 ， 即 完美 散 列 ， 然 后 介绍 两 种 更 新 的 方法 ， 它 们 颇 
有 取代 多 年 流行 的 经 典 散 列 法 的 前 途 。 

5.7.1 完美 散 列 

为 简单 起 见 ， 假 设 所 有 N 项 都 事先 已 知 。 如 果 分 离 链接 的 实现 可 以 保证 每 张 表 最 多 有 常数 

多 个 项 ， 问 题 就 解决 了 。 我 们 知道 ， 如 果 多 用 一 些 表 ， 则 这 些 表 的 平均 长 度 就 会 短 一 些 ， 于 是 
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理论 上 讲 ， 如 果 我 们 有 充分 多 的 表 ， 则 在 相当 高 的 概率 下 可 以 期 待 根本 没有 冲突 ! 

但 是 这 种 方法 存在 两 个 基本 的 问题 : 首先 ， 表 的 数量 可 能 大 得 离谱 ; 其 次 ， 即 使 有 很 多 
K, 我 们 还 是 可 能 碰 到 坏 运气 。 

第 二 个 问题 原则 上 比较 好 处 理 。 假 设 我 们 将 表 的 个 数 选 定 为 M( 即 令 TableSize 4j M), HS 
其 充分 大 以 保证 没有 冲突 的 概率 至 少 是 1/2。 则 如 果 检 测 到 冲突 ， 我 们 只 要 简单 地 把 散 列表 清 
空 ， 再 用 独立 于 第 一 个 函数 的 不 同 的 散 列 函数 去 试 一 下 。 如 果 仍 然 有 冲突 ， 我 们 就 试 第 三 个 散 
列 函数 ， 以 此 类 推 。 尝 试 次 数 的 期 望 值 将 最 多 是 2( 因为 成 功 的 概率 是 1/2) ， 且 全 部 可 以 归结 
为 插入 的 成 本 。5. 8 节 将 讨论 如 何 做 出 额外 的 散 列 函数 这 个 关键 的 问题 。 

于 是 接 下 来 我 们 只 需要 决定 表 的 个 数 M 的 大 小 。 不 幸 的 是 ，W 必须 非常 大 ， 具 体 来 说 ， 
M-Q(N), fil, ARMEN, WARNT DA UE HH] KAEN 1/2 的 概率 是 没有 冲突 的 ， 
这 个 结论 可 以 用 来 对 基本 方法 做 出 可 行 的 修改 。 

定理 5.2 若 NN 个 球 被 放 入 M=N 个 盒子 ， 则 没有 任何 盒子 装 有 超过 | 个 球 的 概率 不 小 于 1/2。 

WERA: 

车 一 对 球 (i, ]) 被 放 进 同一 个 盒子 ， 则 称 之 为 一 次 冲突 。 令 C; 为 任意 两 球 (i, 站 产 生 的 冲 
突 次 数 的 期 望 值 。 则 显然 有 任意 两 个 确定 的 球 冲突 的 概率 是 1/M， 故 C; ;是 1/M， 因 为 涉及 一 
对 (i, /的 冲突 次 数 是 0 或 1。 所 以 整个 散 列表 的 冲突 次 数 期 望 值 是 | 2; C,, 。 因 为 一 共存 在 


N(N-1)/2 对 ， 所 以 这 个 和 就 是 N(N-1)/(2M) =N(N-1)/(2N ) <1/2。 由 于 冲突 次 数 的 期 
望 值 小 于 1/2， 则 产生 哪怕 一 次 冲突 的 概率 都 一 定 在 1/2 以 下 。 口 

当然 ,使 用 VY 个 表 是 不 现实 的 。 但 是 前 面 的 分 析 暗 示 了 另 一 种 选择 : 只 用 N 个 盒子 ， 但 
是 用 散 列表 去 解决 每 个 盒子 的 冲突 ， 而 不 是 用 链表 。 
思路 是 ， 因 为 期 望 每 个 盒子 里 个 有 少量 的 球 ， 所 以 
给 每 个 盒子 用 的 散 列表 的 大 小 可 以 是 盒子 容量 的 平 
方 。 图 5-24 展示 了 基本 结构 。 在 这 里 ， 主 散 列 表 有 
10 个 盒子 。 僵 1、3、5 、7 都 是 空 的 。 盒 0、4、8 各 
有 1 项 ， 故 它们 被 解析 为 带 有 1 个 位 置 的 二 级 散 列 
表 。 盒 2 和 6 各 有 两 项 ， 故 它们 将 被 解析 为 带 有 
4(22) 个 位 置 的 二 级 散 列表 。 盒 9 有 3 W, MERR 
析 为 带 有 9(3”) 个 位 置 的 二 级 散 列表 。 

"按照 最 原始 的 思路 ， 每 个 二 级 散 列表 将 用 一 个 不 l 
同 的 散 列 函数 进行 构造 ， 直 到 没有 冲突 为 止 。 如 果 产 
生 的 冲突 次 数 高 于 要 求 的 值 ， 主 散 列表 也 可 以 被 构建 

j 完 要 证 明 的 就 只 

定理 5.3 若 W 个 项 被 放 和 人 包含 N 个 盒子 的 主 散 列表 中 ,， 则 二 级 散 列表 的 总 容量 的 期 望 值 
最 多 是 2N。 

WERA: 

用 证 明定 理 5. 2 的 同样 逻辑 ， 成 对 冲突 次 数 的 期 望 值 最 多 是 N(N -1)/2N (N -1)72。 
令 b, 为 主 散 列表 中 被 散 列 到 位 置 i 的 项 的 个 数 ， 观 察 到 这 个 盒子 在 二 级 散 列表 中 用 掉 了 太 个 空 
i], Hi T b,(b, -1)/2 次 成 对 冲突 ， 我们 将 称 之 为 c,。 于 是 第 i 个 二 级 散 列表 用 掉 的 空间 就 是 
2c, b, RATE 2 De, + Ibo MIRE (CN -1)/2( 从 本 证 明 的 第 一 句 话 得 到 )， 项 
的 总 个 数 当然 是 N， 所 以 我 们 得 到 总 的 二 级 空间 需求 量 是 2(N -1)/2 +N<2N。 口 

于 是 总 的 二 级 空间 需求 量 超过 4N 的 概率 最 多 是 1/2( 这 是 因为 ， 若 不 然 ， 则 期 望 值 就 会 高 
于 2N) ， 所 以 我 们 可 以 不 断 地 为 主 表 选 择 散 列 函数 ， 直 到 生成 合适 的 二 级 空间 需求 量 。 一 旦 此 
事 完成 ， 每 个 二 级 散 列表 自己 将 只 需要 平均 两 次 尝试 就 可 以 做 到 无 冲突 。 当 这 些 表 被 建 好 以 
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后 ， 任 何 查询 都 可 以 用 两 次 以 内 的 探测 完成 。 

如 果 所 有 的 项 都 事先 知道 ， 则 完美 散 列 是 好 用 的 。 还 有 些 动态 的 方法 允许 插入 和 删除 ( 动 
态 完美 散 列 ) ， 但 我 们 却 代 之 以 研究 两 种 更 新 的 方法 ， 它 们 相对 容易 编程 ， 并 且 与 经 典 的 散 列 
算法 相 比 在 实践 中 也 颇具 竞争 力 。 
5.7.2 布谷 岛 散 列 

从 之 前 的 讨论 可 知 ， 在 球 盒 问 题 中 ， 如 果 V 个 项 被 随机 地 投入 V 个 盒子 ， 则 盒子 容量 的 最 大 
WEHE Oog N/log log N) 。 因 为 这 个 界 已 经 久 为 人 知 ， 且 这 个 问题 已 经 被 数学 家 们 充分 研究 过 
了 ， 所 以 在 20 世纪 90 年 代 中 期 ， 人 们 惊讶 于 一 个 明显 更 小 的 界 被 证 明 ， 即 在 每 次 投放 时 ， 如 果 
随机 选择 两 个 盒子 ， 将 该 项 投入 ( 当时 ) 比较 空 的 那个 盒子 ， 则 最 大 的 盒子 容量 仅 是 O(log log N)。 
很 快 ， 许 多 潜在 的 算法 和 数据 结构 从 这 个 新 的 “两 种 选择 的 力量 ”的 概念 中 产生 出 来 

其 中 一 种 思路 便 是 布谷 鸟 散 列 ( cuckoo hashing) 。 在 布谷 鸟 散 列 中 ， 假 设 有 N 个 项 。 我们 
维护 两 个 分 别 超过 半空 的 表 ， 且 有 两 个 独立 的 散 列 函数 ， 可 以 把 每 个 项 分 配 到 每 个 表 中 的 一 个 
位 置 。 布 谷 鸟 散 列 保持 不 变 的 是 一 个 项 总 是 会 被 存储 在 这 两 个 位 置 之 一 。 

作为 例子 ， 图 5-25 展示 了 一 个 有 6 个 项 的 潜在 的 布谷 鸟 散 列表 ， 带 有 两 个 规模 为 5 的 表 
(这 些 表 太 小 了 ， 但 是 作为 例子 够 用 了 ) 。 基 于 随机 选取 的 散 列 函数 ， 项 4 可 以 或 者 在 表 1 的 位 
置 0, 或 者 在 表 2 的 位 置 2。 项 下 可 以 或 者 在 表 1 的 位 置 3， 或 者 在 表 2 的 位 置 4， 以 此 类 推 。 
这 意味 着 在 布谷 鸟 散 列表 中 一 次 查找 需要 最 多 访问 两 次 表 ， 并 且 一 旦 该 项 被 找到 ， 删 除 就 成 了 
小 事 一 桩 ( 懒惰 删除 都 不 需要 了 1!) 。 

但 是 这 里 有 一 个 重要 的 细节 : 这 个 表 是 怎么 建立 的 ? 例如 ， 在 图 5-25 rn, 3x 6 个 项 在 第 
一 个 表 里 只 有 3 个 可 用 的 位 置 ， 在 第 二 个 表 里 也 只 有 3 个 可 用 的 位 置 。 于 是 这 6 个 项 只 有 6 个 
可 用 的 位 置 ， 导 致 我 们 必须 为 这 6 个 项 找到 一 种 理想 的 空 槽 匹配 。 显 然 ， 如 果 还 有 第 7 个 项 C 
在 表 1 的 位 置 1 和 表 2 的 位 置 2， 用 任何 算法 都 不 能 将 其 插入 表 中 (第 7 个 项 会 竞争 6 个 表 位 ) 。 
你 可 以 争辩 说 这 只 说 明 表 太 满载 了 (G 会 导致 装填 因子 为 0.70) ， 但 同时 ， 如 果 表 中 有 数 千 项 
目 负载 很 轻 ， 而 我 们 有 在 如 此 散 列 位 置 上 的 4，B，C，D, E, FF，G， 还 是 不 可 能 把 7 个 项 都 
插 进 去 。 所 以 这 种 方法 是 否 能 管用 ， 完 全 不 是 一 件 显然 的 事 。 这 种 情况 下 ， 答 案 可 以 是 另外 选 
一 个 散 列 函数 ， 只 要 这 种 情况 不 大 会 发 生 就 可 以 。 

布谷 岛 散 列 算法 本 身 是 简单 的 : 要 插入 一 个 新 的 项 *， 首 先 确保 它 之 前 并 不 存在 。 然 后 我 
们 可 以 用 第 一 个 散 列 函数 ， 如 果 ( 第 一 个 ) 表 的 位 置 为 空 ， 则 该 项 可 以 放 和 人 和。 图 5-26 展示 了 将 
4 插入 一 个 空 散 列表 的 结果 。 
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图 5-25 ”潜在 的 布谷 鸟 散 列 表 。 散 列 函 数 在 右边 给 出 。 图 5-26 插入 4 以 后 的 布谷 鸟 散 列表 

对 这 6 项 而 言 ， 在 表 1 中 只 有 3 个 有 效 的 位 置 ， 

在 表 2 中 也 只 有 3 个 有 效 的 位 置 ， 所 以 并 不 一 

定 能 很 容易 地 找到 这 种 安排 

现在 假设 我 们 要 插入 B， 其 在 表 1 中 有 散 列 位 置 0， 且 在 表 2 中 有 位 置 0。 接 下 来 的 算法 描 

述 中 ,我 们 将 用 (h, ，h, ) 来 表示 两 个 位 置 ， 于 是 B 的 位 置 就 用 (0, 0) 给 出 。 表 1 的 位 置 0 已 经 
被 占 了 。 此 时 有 两 种 选择 ， 一 种 是 在 表 2 里 找 ， 问 题 是 表 2 中 的 位 置 0 也 可 能 被 占 。 在 现在 这 
个 情形 中 碰巧 不 是 这 样 ， 但 标准 的 布谷 鸟 散 列表 用 到 的 算法 根本 不 会 去 找 ， 而 是 先发制人 地 把 
新 的 项 中 放 进 表 1。 为 了 做 到 这 一 步 ， 就 必须 换 掉 4， 于 是 4 被 移 到 了 表 2， 用 它 在 表 2 中 的 散 
列 位 置 ， 即 位 置 2。 结 果 在 图 5-27 中 给 出 。C 的 插入 是 容易 的 ， 在 图 5-28 中 给 出 。 
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RIF 
A: 0,2 A: 0,2 
B: 0,0 B; 0,0 
C: 1,4 
图 5-27 插入 B 以 后 的 布谷 鸟 散 列 表 图 5-28 插入 C 以 后 的 布谷 鸟 散 列 表 


下 一 步 我 们 要 插入 D， 其 散 列 位 置 为 (1，0)。 但 是 表 1 的 位 置 (位 置 1) 已 经 被 占 了 。 还 要 
注意 的 是 ， 表 2 的 位 置 还 没有 被 占 ， 但 我 们 不 找 那里 ， 而 是 用 D 奉 换 掉 C， 令 C 按照 其 第 二 个 
散 列 函 数 的 建议 去 往 表 2 的 位 置 4。 结 果 表 在 图 5-29 中 给 出 。 这 步 做 完 以 后 , 已 可 以 很 容易 地 
被 插入 。 到 此 为 止 ， 一 切 都 好 ， 但 是 现在 我 们 能 插入 正 吗 ? 图 5-30 ~ 图 5-33 展示 了 该 算法 通 
过 先后 对 EE、4、B 的 换 位 ， 成 功 地 插入 了 FF。 i 


0,2 








A: A: 0,2 
B: 0,0 B: 0,0 
C: 1,4 C: 1,4 
D: 1,0 Di 1,0 
E: 32 E: 32 
F: 34 
Fd 5-29 插入 D 以 后 的 布谷 鸟 散 列 表 图 5-30 开始 向 图 5-29 中 的 表 插 入 F 的 布谷 鸟 
散 列 表 。 首 先 , FERE 
A; 0,2 A: 0,2 
B: 0,0 B: 0,0 
C: 1,4 C: 14 
D: 10 D: 1,0 
E: 32 E: 32 
F: 34 F: 34 
图 5-31 继续 向 图 5-29 中 的 表 插 人 Fo 图 5-32 继续 向 图 5-29 中 的 表 插 人 Fo 
下 一 步 , ETHRA 下 一 步 , 4 替换 B 


,显然 如 我 们 之 前 提 到 的 ， 无 法 成 功 地 插入 具有 散 列 位 置 (1，2) 的 G6。 如 果 我 们 尝试 一 下 ， 
那么 得 替换 D， 然 后 是 8， 然后 是 4、E、F 和 C， 随 后 C 会 企图 回 到 表 1 的 位 置 1， 替换 从 一 
开始 就 被 放 在 那里 的 G6。 这样 我 们 会 得 到 图 5-34。 于 是 现在 6 会 尝试 其 在 表 2 中 的 男 一 个 位 置 
(位 置 2) 并 且 替 换 掉 A4，4 会 替换 掉 ，B 会 蔡 换 掉 D,，D 会 蔡 换 掉 C，C 会 替换 掉 F, FEE 
fai E, E 现在 又 会 从 位 置 2 替换 掉 C。 至 此 ，C 就 陷入 了 一 个 循环 。 





A: 02 
A: 02 B: 0,0 
B: 0.0 C: 1,4 
C: b4 D: 10 
D: 1,0 E: 32 
E: 32 F: 3,4 
F: 34 G; 12 


图 5-33 ”完成 向 图 5-29 中 的 表 插入 图 5-34 将 C 插 入 图 5-33 中 的 表 。C 替换 掉 D，D 替换 掉 B， 


F, 奇迹 般 地 ，B 在 表 2 中 BRA, A THREE, ERREF, FERH C, 
找到 一 个 空位 C 替换 掉 G。 现 在 还 并 非 没有 希望 ， 因 为 当 被 6 蔡 


换 时 ， 我 们 还 可 以 尝试 另 一 个 散 列表 的 位 置 2。 然 
而 ， 虽 然 在 一 般 情况 下 是 可 以 成 功 的 ， 但 在 这 个 情 
形 中 却 存 在 一 个 循环 ， 使 得 插入 不 会 终止 
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于 是 焦点 问题 就 在 于 ， 存 在 阻碍 插入 成 功 的 循环 的 概率 有 多 大 ， 以 及 成 功 插入 需要 的 替换 
次 数 的 期 望 值 是 多 少 ? 幸运 的 是 ， 如 果 表 的 装填 因子 小 于 0.5， 有 分 析 证 明 ， 循 环 的 概率 非常 
低 ， 蔡 换 次 数 的 期 望 值 是 一 个 小 常数 ， 并 且 一 次 成 功 的 插入 需要 超过 O(log N) 次 替换 的 可 能 性 
是 极 低 的 。 因 此 ， 在 若干 次 替换 被 检测 到 以 后 ， 我 们 可 以 简单 地 用 新 的 散 列 函数 重新 建 表 。 更 
准确 地 讲 ， 单 次 插入 需要 一 套 新 散 列 函 数 的 概率 可 以 是 0(1/N ) ; 新 的 散 列 函数 自己 会 多 产生 
NN 次 插入 以 重新 建 表 , 但 即便 如 此 ， 也 意味 着 重建 的 花 销 是 最 小 的 。 然 而 ， 如 果 表 的 装填 因子 
达到 了 0. 5 或 者 更 高 ， 循 环 的 概率 就 会 大 幅 提高 ， 这 种 方法 就 不 大 好 用 了 。 

在 布谷 鸟 散 列 发 表 后 ， 人 们 又 提出 了 大 量 的 扩展 。 例 如 ， 与 其 用 两 张 表 ， 其 实 还 可 以 用 更 
多 的 表 ， 例 如 3 张 或 4 张 。 虽 然 这 样 做 增加 了 查找 的 开销 ， 但 也 大 幅 增加 了 理论 上 空间 的 利 
用 。 在 某 些 应 用 中 ， 通 过 分 开 的 散 列 函数 进行 查找 是 可 以 并 行 完成 的 于 是 额外 的 时 间 花 销 就 
很 少 甚 至 没有 。 男 一 种 扩展 是 允许 每 张 表 存 多 个 关键 字 ， 这 么 做 也 能 增加 空间 的 利用 ， 还 使 得 
插入 容易 实现 ， 并 且 更 具有 缓存 友好 性 。 各 种 组 合 都 是 可 能 的 ， 如 图 5-35 所 示 。 最 后 ， 布 谷 
鸟 散 列表 经 常 被 实现 成 一 张 巨大 的 表 ， 带 有 两 个 (或 多 个 ) 可 以 探测 整 表 的 散 列 函数 ， 以 及 各 
种 变形 算法 ,不 是 从 一 系列 替换 出 发 ， 而 是 只 要 有 可 用 的 地 方 就 立刻 尝试 将 一 个 项 放 入 第 二 张 
散 列 表 。 
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图 5-35 布谷 鸟 散 列 变化 情形 下 的 最 大 装填 因子 











布谷 鸟 散 列表 的 实现 

实现 布谷 鸟 散 列 需要 一 个 散 列 函数 的 集合 ; 简单 地 用 hashCode 生成 散 列 函数 的 集合 是 没 
有 意义 的 ， 因 为 任何 hashCode 冲突 都 将 导致 集合 中 所 有 散 列 函数 冲突 。 图 5-36 给 出 了 一 个 
可 用 于 将 散 列 函 数 族 发 送 给 布谷 鸟 散 列 的 简单 接口 。 


public interface HashFamily<AnyType> 
{ 


int hash( AnyType x, int which ); 


int getNumberOfFunctions( ); 
void generateNewFunctions( ); 





图 5-36 布谷 鸟 散 列 的 通用 HashFamily 接口 


图 5-37 为 布谷 鸟 散 列 提供 了 一 个 类 的 框架 。 我 们 将 编写 一 个 经 典 实现 的 变种 代码 ， 允 许 
任意 数量 的 散 列 函数 (由 创建 散 列表 的 HashFamily 对 象 指定 ) ， 仅 用 一 个 数组 来 让 所 有 散 列 
函数 寻 址 。 因 此 ， 我 们 的 实现 不 同 于 经 典 的 使 用 两 个 分 开 寻 址 的 散 列表 的 概念 。 我 们 可 以 通过 
相对 较 小 的 代码 改动 来 实现 经 典 版 然而， 本 节 提 供 的 这 个 版 本 似乎 在 用 简单 散 列 函数 的 测试 
中 有 更 好 的 表现 。 

在 图 5-37 中 ， 我 们 指定 表 的 最 大 负载 是 0.4， 如 果 表 的 装填 因子 快要 超过 此 限 ， 就 执行 自 
动 的 表 扩展 。 我 们 还 定义 了 ALLOWED_REHASHES， 如 果 替 换 过 程 执行 了 太 长 时 间 ， 它 将 指定 
我 们 要 执行 多 少 次 再 散 列 。 在 理论 上 ，ALLOWED_REHASHES 可 以 是 无 限 的 ， 因 为 我 们 期 望 需 
要 再 散 列 的 次 数 只 是 一 个 小 常数 。 实 际 上 ， 这 取决 于 一 些 因素 ， 如 散 列 函数 的 个 数 、 散 列 函数 
的 质量 以 及 装填 因子 ， 再 散 列 可 能 令 过 程 显著 变 慢 ， 因 此 进行 表 扩 展 可 能 是 值得 的 ， 尽 管 这 将 
花费 空间 。 布 谷 鸟 散 列 的 数据 表示 是 非常 直截了当 的 : 我 们 存储 一 个 简单 的 数组 、 当 前 规模 以 
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及 散 列 函数 的 集合 ， 表 示 在 一 个 HashFamily 的 实例 中 。 我 们 还 维护 散 列 函数 的 个 数 ， 尽 管 
这 总 是 可 以 从 HashFamily 的 实例 中 得 到 。 





1 public class CuckooHashTable<AnyType> 

2 4 

3 public CuckooHashTable( HashFamily<? super AnyType> hf ) 

4 { /* Figure 5.38 «/ ) 

5 public CuckooHashTable( HashFamily<? super AnyType> hf, int size ); 
6 { /* Figure 5.38 */ } 

7 

8 

9 


public void makeEmpty( ) 
{ doClear( ); } 











10 

11 public boolean contains( AnyType x ) 

12 { /* Figure 5.40 «/ } 

13 

14 private int myhash( AnyType x, int which ) 

15 { /* Figure 5.39 «/ } 

16 

I? private int findPos( AnyType x ) 

18 { /* Figure 5.39 */ } 

19 

20 public boolean remove( AnyType x ) 

21 { /* Figure 5.41 */ } 

22 

23 public boolean insert( AnyType x ) 

24 { /* Figure 5.42 */ } 

25 

26 private void expand( ) 

27 { /* Figure 5.44 «/ } 

28 

29 private void rehash( ) 

30 { /* Figure 5.44 »/ } 

31 

32 private void doClear( ) 

33 { /* Figure 5.38 */ } 

34 

35 private void allocateArray( int arraySize ) 
36 { array = (AnyType[]) new Object[ arraySize ]; } 
37 

38 private static final double MAX LOAD = 0.4; 

39 private static final int ALLOWED REHASHES - 1; 
40 private static final int DEFAULT TABLE SIZE - 101; 
41 

42 private final HashFamily<? super AnyType> hashFunctions; 
43 private final int numHashFunctions; 

44 private AnyType [ ] array; 

45 private int currentSize; 





5-37 布谷 鸟 散 列 的 类 的 框架 
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Al 5-38 给 出 了 构造 函数 和 doClear 方法 ， 这 些 都 是 很 简单 的 。 图 5-39 给 出 了 一 对 私有 方 
法 。 第 一 个 myHash 用 于 选择 合适 的 散 列 函数 ， 然 后 将 它 的 值 按 比例 对 应 到 一 个 有 效 的 数组 下 
标 。 第 二 个 findPos 去 查 所 有 散 列 函数 ， 返 回 包含 x 项 的 数组 下 标 ， 如 果 找 不 到 * 就 返回 
-1。 然 后 findPos 会 被 图 5-40 中 的 contains 和 图 5-41 中 的 remove 函数 分 别 用 到 ， 我 们 
看 到 这 些 方法 是 很 容易 实现 的 。 
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[** 
* Construct the hash table. 
* param hf the hash family 
*/ 
public CuckooHashTable( HashFamily<? super AnyType»-hf ) 
{ 
this( hf, DEFAULT TABLE SIZE ); 


} 
/** 


* Construct the hash table. 
* @param hf the hash family 
* @param size the approximate initial size. 
*/ 
public CuckooHashTable( HashFamily<? super AnyType> hf, int size ) 
{ 
allocateArray( nextPrime( size ) ); 
doClear( ); 
hashFunctions = hf; 
numHashFunctions = hf.getNumberOfFunctions( ); 


} 


private void doClear( ) 
{ 
currentSize = 0; 
for( int i = 0; i < array.length; i++ ) 
array[ i ] = null; 


图 5-38 布谷 鸟 散 列表 的 初始 化 例 程 


难 写 的 例 程 是 插入 。 在 图 5-42 中 ， 我 们 可 以 看 到 基本 的 计划 是 检查 该 项 是 否 已 经 存在 ， 
如 果 是 的 话 就 返回 。 否 则 ， 我们 检查 表 是 否 已 经 满载 ， 如 果 是 的 话 就 扩展 之 。 最 后 我 们 调用 一 
个 辅助 函数 来 干 所 有 的 脏 活 累 活 。 

插入 用 的 辅助 函数 在 图 5-43 中 给 出 。 我 们 声明 一 个 变量 rehashes 来 跟踪 已 经 为 这 次 插 
入 尝试 了 多 少 次 再 散 列 。 我 们 的 插入 函数 是 互 递归 的 : 在 必要 时 ，insert 最 终 要 调用 
rehash， 而 它 最 终 又 回头 调用 inserts MAX TREHI, rehash 在 外 部 声明 。 

我 们 的 基本 逻辑 跟 经 典 方法 是 不 同 的 。 我 们 已 经 检测 到 要 插入 的 项 不 是 已 经 存在 的 。 在 第 
15-25 行 ， 我们 检查 是 否 有 任何 有 效 的 位 置 是 空 着 的 ， 如 果 是 的 话 ， 就 把 该 项 放 到 第 一 个 可 以 用 
的 位 置 ， 然 后 就 完事 了 。 和 否则 ， 我 们 替换 掉 其 中 一 个 已 经 存在 的 项 。 然 而 ， 有 一 些 棘 手 的 问题 : 

e 替换 第 一 项 在 实验 中 表现 不 好 。 

e 替换 最 后 一 项 在 实验 中 表现 不 好 。 

e 按 序列 替换 项 ( 即 第 一 次 替换 用 散 列 函数 0， 下 一 次 用 散 列 函数 1， 等 等 ) 在 实验 中 表现 不 好 。 


200 
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e 纯粹 随机 地 替换 项 在 实验 中 表现 不 好 ， 特 别 是 对 于 只 有 两 个 散 列 函数 的 情况 ， 这 样 做 往 
往 会 产生 循环 。 























1 /** 
2 * Compute the hash code for x using specified hash function 
3 * @param x the item 
4 * (param which the hash function 
5 * @return the hash code 
6 x/ 
7 private int myhash( AnyType x, int which ) 
8 { 
9 int hashVal = hashFunctions .hash( x, which ); 
10 
11 hashVal %= array.length; 
12 if( hashVal « 0 ) 
13 hashVal += array.length; 
14 
15 return hashVal; 
16 } 
17 
18 /** 
19 * Method that searches all hash function places. 
20 * @param x the item to search for. 
21 * @return the position where the search terminates, or -1 if not found. 
22 */ 
23 private int findPos( AnyType x ) 
24 { 
25 for( int i = 0; i < numHashFunctions; i++ ) 
26 { 
27 int pos = myhash( x, i ); 
28 if( array[ pos ] != null && array[ pos ].equals( x ) ) 


return pos; 


return -1; 


图 5-39 在 布谷 鸟 散 列表 中 找 某 项 的 位 置 ， 并 且 对 某 给 定 表 计 算 散 列 编码 的 例 程 


/** 

* Find an item in the hash table. 

* @param x the item to search for. 
* @return true if item is found. 

*/ 
public boolean contains( AnyType x ) 
{ 


return findPos( x ) != -1; 


1 
2 
3 
4 
2 
6 
7 
8 
9 


} 
图 5-40 布谷 鸟 散 列表 的 查找 例 程 
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[** 

* Remove from the hash table. 

* Gparam x the item to remove. 

* @return true if item was found and removed 
*/ 
public boolean remove( AnyType x ) 

{ 


int pos = findPos( x ); 


1 
2 
3 
4 
5 
6 
7 
8 


if( pos != -1) 

{ 
array[ pos ] = null; 
currentSize--; 


} 


return pos != -1; 





图 5-41 布谷 鸟 散 列 表 的 删除 例 程 


/** 
* Insert into the hash table. If the item is 
* already present, return false. 
* @param x the item to insert. 
*/ 
public boolean insert( AnyType x ) 
{ 
if( contains( x ) ) 
return false; 


if( currentSize >= array.length * MAX LOAD ) 
expand( ); 


return insertHelperl( x ); 





图 5-42 布谷 鸟 散 列 的 公共 插入 例 程 


为 了 缓解 最 后 一 个 问题 ,我们 维护 被 替换 的 最 后 一 个 位 置 ， 如 果 随 机 项 是 最 后 一 个 被 替换 
的 项 ， 我 们 就 选择 一 个 新 的 随机 项 。 这 种 做 法 有 时 候 会 无 限 循环 ， 即 当 有 两 个 散 列 函数 ， 这 两 
个 散 列 函数 都 正巧 探测 同一 个 位 置 ， 而 且 该 位 置 属于 上 次 被 蔡 换 的 项 的 时 候 。 所 以 我 们 将 循环 
次 数 限制 为 5 次 (特意 用 了 一 个 奇数 ) 。 

实现 expand fil rehash 的 代码 在 图 5-44 中 给 出 。 函 数 expand 创建 一 个 更 大 的 数组 ， 但 
是 保持 用 同样 的 散 列 函数 。 零 参数 的 rehash 函数 保持 数组 规模 不 变 ， 但 创建 一 个 新 的 数组 ， 
用 新 选 的 散 列 函数 去 填充 。 

最 后 ， 图 5-45 给 出 StringHashFamily 类 ,提供 了 一 套 简 单 的 处 理 字符 串 的 散 列 函数 。 
这 些 散 列 函 数 用 随机 选取 的 数字 (不 一 定 是 素数 ) 替 换 掉 图 5-4 中 的 常数 37。 

布谷 鸟 散 列 的 好 处 包括 最 坏 情 况 下 常数 级 的 查找 和 删除 时 间 ， 避 免 了 懒惰 删除 和 额外 的 数 
据 以 及 并 行 化 处 理 的 可 能 性 。 然 而 ， 布 谷 鸟 散 列 对 于 散 列 函数 的 选择 极其 敏感 ， 布 谷 鸟 散 列表 
的 发 明 人 报告 称 ， 他 们 在 测试 中 试用 的 很 多 标准 散 列 函数 都 表现 不 好 。 另 外 ， 虽 说 只 要 装填 因 
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子 小 于 1/2， 期 望 的 插入 时 间 就 应 该 是 常数 ,但 对 使 用 两 个 分 开 的 表 ( 其 装填 因子 均 为 A) 的 经 
典 布谷 鸟 散 列 的 插入 开销 期 望 值 来 说 ,已 经 证 明了 上 界 大 约 是 1/(1 - (4X*)”)， 这 个 上 界 随 
着 装填 因子 趋 近 1/2 而 快速 恶化 ( 当 A 等 于 或 超过 1/2 时 ， 这 个 公式 本 身 就 没有 意义 了 ) 。 使 用 
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低 一 些 的 装填 因子 或 多 于 两 个 散 列 函数 似乎 是 一 个 合理 的 选择 。 
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private int rehashes = 0; 
private Random r = new Random( ); 


private boolean insertHelperl( AnyType x ) 


{ 


final int COUNT LIMIT = 100; 


while( true ) 


{ 


} 


} 


int 
int 


for( int count = 0; count < COUNT LIMIT; count++ ) 


{ 


if ( 


else 


lastPos = -1; 
pos; 


for( int i = 0; i « numHashFunctions; i++ ) 
( 
pos = myhash( x, i ); 


if( array[ pos ] == null ) 
( 
array[ pos ] = x; 
currentSize++; 
return true; 





} 


// none of the spots are available. Evict out a random one 
int i = 0; 
do 
{ 
pos = myhash( x, r.nextInt( numHashFunctions ) ) ; 
} while( pos == lastPos && i++ < 5 ); 


AnyType tmp = array[ lastPos = pos ]; 
array[ pos ] = x; 

x = tmp; 

**rehashes > ALLOWED REHASHES ) 

expand( ); // Make the table bigger 


rehashes = 0; // Reset the # of rehashes 


rehash( ); // Same table size, new hash functions 





J 





图 5-43 布谷 鸟 散 列 的 插入 例 程 用 了 一 种 不 同 的 算法 来 选取 项 做 随机 替换 ， 不 要 试图 将 最 后 


一 项 重新 替换 。 如 果 有 太 多 次 的 替换 ， 该 表 将 试图 选择 新 的 散 列 函 数 ( 再 散 列 ) , 
并 且 如 果 有 太 多 次 再 散 列 ， 将 进行 表 的 扩展 





private void expand( ) 
{ 

rehash( (int) ( array.length / MAX LOAD ) ); 
} 


private void rehash( ) 


{ 
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hashFunctions.generateNewFunctions( ); 
rehash( array.length ); 
} 


private void rehash( int newLength ) 


AnyType [ ] oldArray = array; 
allocateArray( nextPrime( newLength ) ); 
currentSize = 0; 


// Copy table over 
for( AnyType str : oldArray ) 
if( str != null ) 
insert( str ); 





图 5-44 布谷 鸟 散 列 表 的 再 散 列 和 扩展 代码 
5.7.3 跳 房子 散 列 

跳 房子 散 列 ( hopscotch hashing) 是 一 种 新 算法 。 它 尝试 改进 经 典 的 线性 探测 算法 。 回 顾 在 
线性 探测 中 ， 从 散 列 地 址 开始 的 单元 被 顺序 探测 。 因 为 有 一 次 和 二 次 聚集 ， 所 以 这 个 序列 的 平 
均 长 度 会 随 着 表 的 装载 而 变 长 ， 于 是 很 多 改进 被 提出 ， 如 平方 探测 、 双 散 列 等 ， 试 图 降低 冲突 
次 数 。 然 而 ， 在 一 些 现代 体系 结构 中 ， 探 测 相 邻 单元 所 能 产生 的 位 置 与 额外 的 探测 需要 相 比 ， 
前 者 是 更 为 重要 的 因素 ， 所 以 线性 探测 仍然 是 实用 的 ， 甚 至 是 最 佳 选择 。 

跳 房 子 散 列 的 思路 是 ， 用 事先 确定 的 、 对 计算 机 的 底层 体系 结构 而 言 是 最 优 的 一 个 常数 ， 
给 探测 序列 的 最 大 长 度 加 个 上 界 。 这 样 做 可 以 给 出 常数 级 的 最 坏 查 询 时 间 ， 并 且 与 布谷 鸟 散 列 
RE, 查询 可 以 并 行 化 ， 以 同时 检查 可 用 位 置 的 有 限 集 。 

如 果 某 次 插入 要 把 一 个 新 的 项 放 到 距离 它 的 散 列 位 置 太 远 的 地 方 ， 我 们 会 很 有 效 地 掉头 向 
散 列 位 置 走 ， 替 换 掉 潜在 的 项 。 如 果 足 够 谨慎 ,那么 替换 可 以 很 快 完成 ， 并 且 保 证 那些 被 替换 
的 项 都 不 会 放 到 距离 它们 的 散 列 位 置 太 远 的 地 方 。 该 算法 在 某 种 意义 上 是 确定 的 ， 即 给 定 一 个 
散 列 函 数 ， 那 些 项 或 者 是 可 以 被 替换 的 ,或 者 不 可 以 。 后 者 意味 着 散 列 表 可 能 太 挤 了 ， 该 做 再 
散 列 了 ,但 这 只 有 在 超过 0.9 的 极 高 的 装填 因子 下 才 会 发 生 。 对 于 装填 因子 为 1/2 的 表 来 说 ， 
失败 的 概率 几乎 为 零 ( 见 练习 5. 23) 。 

& MAX DIST 为 所 选 的 最 大 探测 序列 的 上 界 ， 即 项 x 必须 在 列 出 的 hash(x), hash(x) +1, 
s+, hash(x) + (MAX. DIST-1) 这 W4X_D1S7T 个 位 置 中 的 某 处 被 找到 。 为 了 有 效 地 处 理 替换 ， 我 们 
对 每 个 位 置 x 保存 一 个 信息 ， 即 处 于 替换 位 置 的 那个 项 是 否 被 一 个 散 列 到 位 置 x 的 元 素 所 占 。 

例如 ， 图 5-46 给 出 了 一 个 很 挤 的 跳 房 子 散 列表 ， 用 到 的 MAX. DIST =4。 位 置 6 的 位 数组 
表明 只 有 位 置 6 有 一 项 (C) 的 散 列 值 是 6: 只 有 Hop[6] 的 第 一 位 被 设置 了 。Hop[7] 的 前 两 位 
都 被 设置 了 ,表明 位 置 7 和 8(4 和 D) 都 被 散 列 值 为 7 的 项 所 占 。Hop[8] 只 有 第 三 位 被 设置 ， 
表明 在 位 置 10 的 项 (E) 具 有 散 列 值 8。 如 果 MAX. DIST 不 超过 32， 则 Hop 数组 实质 上 是 一 个 32 
位 整数 的 数组 ， 于 是 额外 的 空间 需求 不 是 很 大 。 如 果 对 于 某 个 pos，Hop[ pos ] 的 所 有 位 都 设置 
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为 1， 则 将 一 个 散 列 值 为 pos 的 项 进行 插入 的 企图 很 显然 会 失败 ， 因 为 会 有 MAX. DIST + 1 个 项 
企图 待 在 pos 的 MAX. DIST 个 位 置 上 一 一 这 是 不 可 能 的 。 


public class StringHashFamily implements HashFamily<String> 


{ 


private final int [ ] MULTIPLIERS; 
private final java.util.Random r = new java.util.Random( ); 


public StringHashFamily( int d ) 
{ 
MULTIPLIERS = new int[ d ]; 
generateNewFunctions( ); 


} 


public int getNumberOfFunctions( ) 
{ 

return MULTIPLIERS. length; 
} 


public void generateNewFunctions( ) 
{ 
for( int i = 0; i < MULTIPLIERS.length; i++ ) 
MULTIPLIERS[ i ] = r.nextInt( ); 
} 


public int hash( String x, int which ) 

{ 
final int multiplier = MULTIPLIERS[ which ]; 
int hashVal = 0; 


for( int i = 0; i < x.length( ); i++ ) 
hashVal = multiplier * hashVal + x.charAt( i ); 


return hashVal; 





图 5-45 布谷 鸟 散 列 的 简单 字符 串 散 列 。 这 些 散 列 函 数 可 能 不 满足 布谷 鸟 散 列 的 要 求 ， 但 是 如 果 
表 不 是 特别 满载 :并且 用 了 图 5-43 中 的 另 一 种 插入 例 程 的 话 ， 它 们 的 表现 还 是 良好 的 


4: 7 
B: 9 
C:6 
D: 7 
zo E546 跳 房子 散 列表 。 跳 跃 值 说 明 在 区 块 中 
de 的 哪些 位 置 是 被 包含 了 这 个 散 列 值 的 


单元 所 占据 的 。 于 是 Hop[8] =0010 表 
明 只 有 位 置 10 目前 包含 了 散 列 值 为 8 
的 项 ， 而 位 置 8、9 和 11 都 没有 包含 
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继续 看 例子 ,假设 我 们 现在 插入 散 列 值 为 9 的 项 有。 正常 的 线性 探测 会 企图 将 之 放 到 位 置 
13, 但 这 距离 散 列 值 9 太 远 了 。 于 是 ,我 们 找 一 个 项 来 替换 掉 ， 并 且 把 它 重 置 到 位 置 13。 可 以 
去 到 位 置 13 的 候选 项 只 能 是 散 列 值 为 10、11、12 或 13 的 项 。 如 果 我 们 检查 Hop[ 10] ， 可 以 看 
到 没有 散 列 值 为 10 的 候选 项 。 但 是 Hop[11] 产 生 了 一 个 候选 项 C， 其 值 为 11， 可 以 被 放 到 位 
置 13。 由 于 位 置 11 现在 距离 互 的 散 列 值 充分 近 了 ， 因 此 现在 就 可 以 插入 H UERR Hop 
信息 的 改变 一 起 在 图 5-47 中 给 出 。 
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图 5-47 BEBiT HOA. BA 五。 线性 探测 建议 位 置 13, 但 是 太 远 了 ， 
所 以 我 们 从 位 置 11 替换 掉 G 以 找到 一 个 近 一 点 的 位 置 


最 后 ， 我 们 将 尝试 把 散 列 值 为 6 的 了 插入。 线性 探测 建议 放 位 置 14 ， 当 然 那 太 远 了 。 于 是 
我 们 在 Hop[ 11] dE, M C 可 以 向 下 移 ， 释 放 位 置 13 。 现 在 13 空 了 ， 我 们 可 以 在 Hop[ 10] 
里 找 另 一 个 元 素来 替换 。 但 是 .Hop[10] 的 前 三 位 全 是 零 ， 所 以 没有 散 列 值 为 10 的 项 可 以 被 移 
动 。 所 以 我 们 检查 Hop[11] ， 发 现 其 前 两 位 都 是 零 。 

于 是 再 试 Hop[ 12] ;我们 需要 它 的 第 一 位 是 1， 这 回 对 了 。 所 以 下 可 以 向 下 移 。 这 两 步 展 
示 在 图 5-48 中 。 注 意 ， 如 果 不 是 这 种 情况 一 一 比如 说 如 果 hash( 了) 是 9 而 不 是 12 一 一 我 们 就 卡 





住 了 ， 只 能 进行 再 散 列 。 然 而 这 对 于 我 们 的 算法 不 是 问题 ， 成 问题 的 是 ， 我们 根本 就 无 法 放 入 ， 


所 有 的 项 C, 1, A, D, E, B, HUR FWA F 的 散 列 值 是 9 的 话 )。 这 些 项 的 散 列 值 全 在 
6 ~9 之 间 ， 于 是 需要 放 在 6 ~ 抽 之 间 的 7 个 点 上 。 但 那样 要 把 8 个 项 放 在 7 个 点 上 一 一 不 可 
能 。 然 而 ， 既 然 那 不 是 我 们 这 个 例子 的 情况 ,我们 已 经 把 一 个 项 从 位 置 12 替换 掉 了 ， 现 在 就 
可 以 继续 。 图 5-49 展示 了 从 位 置 9 开始 的 剩 下 的 替换 ， 以 及 随后 1 的 放置 。 


| | | Hop | | 项 | Hop | 
CRRA 着 全 








moma Sos i 





E 5-48 BL THOU. ZAMA 1, 线性 探测 建议 位 置 14， 但 是 太 远 了 。 咨 询 Hop[ 11], 
我 们 看 到 C 可 以 向 下 移 ， 释 放 位 置 13。 咨 询 Hop[ 10] 得 不 到 任何 建议 。Hop[ 11] 
也 帮 不 上 忙 (为 什么 ?) ， 所 以 Hop[ 12] BUE] F 
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Kq5-49 ” 跳 房子 散 列表 。 继 续 插 入 1: 下 一 个 B 被 替换 ， 我 们 终于 有 了 了 
一 个 距离 散 列 值 充 分 近 的 点 可 以 插入 了 


跳 房 子 散 列 是 一 种 比较 新 的 算法 ,但 是 初始 的 实验 结果 很 有 前 途 ， 特 别 是 对 那些 使 用 多 处 
理 器 并 且 需 要 大 量 并 行 和 并 发 的 应 用 而 言 。 布 谷 鸟 散 列 或 跳 房 子 散 列 相 对 于 经 典 的 分 离 链接 法 
和 线性 /二 次 探测 法 而 言 ， 是 否 能 成 为 一 种 实际 的 替代 算法 ， 还 有 待 观察 。 


5.8 通用 散 列 法 


尽管 散 列表 是 很 有 效 的 ， 并且 在 装填 因子 适当 的 前 提 假 设 下 每 个 操作 都 有 固定 的 平均 花 
销 , 但 是 其 表现 和 分 析 却 取决 于 散 列 函 数 具 有 以 下 两 种 性 质 : 

1. 散 列 函数 必须 可 在 常数 时 间 ( 即 与 表 中 项 的 个 数 无 关 ) 内 计算 。 

2， 散 列 函数 必须 将 各 项 均匀 分 布 在 数组 单元 中 。 

特别 是 ， 如 果 散 列 函 数 不 好 ， 一切 丝 是 徒劳 ， 每 个 操作 的 花 销 可 能 是 线性 的 。 在 这 一 节 ， 
我 们 讨论 通用 散 列 函 数 ， 人 允许 我 们 随机 地 选择 散 列 函数 以 使 上 述 条 件 2 可 以 得 到 满足 。 与 5.7 
节 一 样 ， 我们 用 M 来 表示 Tablesize。 虽 然 使 用 通用 散 列 函数 的 一 个 强烈 动机 是 为 经 典 散 列 表 的 
分 析 中 用 到 的 假设 提供 理论 论证 ， 但 这 些 函 数 也 可 以 用 于 那些 需要 高 层次 鲁 棒 性 的 应 用 ,在 这 
些 应 用 中 ， 其 最 坏 情况 下 (甚或 是 大 幅 下 降 ) 的 效率 一 一 也 许 是 基于 破坏 者 或 黑客 产生 的 输 
入 一 一 是 根本 不 能 容忍 的 。 

定义 5.1 WR MERA xvey, HPA h(x) =h(y) 的 散 列 函 数 h 的 个 数 至 多 为 | | /M, 
则 一 个 散 列 函数 族 已 是 通用 的 。 

注意 这 个 定义 对 每 一 对 项 都 成 立 ， 而 不 是 对 所 有 对 项 求 平均 后 成 立 。 上 述 定义 意味 着 ， 如 果 
我 们 从 一 个 通用 族 豆 中 随机 选取 一 个 散 列 函 数 ， 则 任意 两 个 不 同 的 项 之 间 发 生 冲突 的 概率 至 多 是 
1AM， 并 且 当 向 表 中 加 入 NN 个 项 时 ,在 起 始点 发 生 冲 突 的 概率 至 多 是 NM， 或 者 是 装填 因子 。 

对 分 离 链 接 法 或 跳 房 子 散 列 法 使 用 通用 散 列 函数 ， 对 于 满足 分 析 这 些 数据 结构 所 用 到 的 假 
设 是 足够 的 。 但 是 对 需要 很 强 的 独立 性 概念 的 布谷 鸟 散 列 法 而 言 ， 却 是 不 够 的 。 在 布谷 鸟 散 列 
法 中 ,我们 首先 看 有 没有 空 的 位 置 ; 如 果 没有 ， 我 们 就 做 个 替换 ， 另 一 个 不 同 的 项 就 得 去 找 个 
空 的 位 置 。 如 此 类 推 ， 直 到 我 们 找到 了 空位 置 ， 或 决定 进行 再 散 列 (一 般 是 在 O(log N) 步 以 
内 )。 为 了 让 分 析 成 立 ， 每 一 步 向 散 列 函 数 代 入 不 同 的 项 x 时 ， 其 冲突 概率 都 必须 独立 地 是 N/M 
我 们 可 以 在 下 列 定义 中 正式 描述 这 种 独立 性 需求 。 

定义 5.2 如 果 对 任意 的 x, AY, mE “> VY H HA h(x) =h(y,), h(x) = 
h(y,), *, h(x,) =hCy,) KRI RZ h EY | | AN ， 则 一 个 散 列 函数 族 HAE c3 
用 的 。 

有 了 这 个 定义 ,我 们 看 到 布谷 鸟 散 列 法 的 分 析 需 要 一 个 0(log N)- 通 用 的 散 列 函数 (在 替 
换 了 那么 多 次 之 后 ， 我 们 放弃 寻找 并 进行 再 散 列 ) 。 在 本 节 中 , 我们 只 看 通用 散 列 函数 。 
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要 设计 一 个 简单 的 通用 散 列 函数 ， 我 们 将 首先 假设 会 把 非常 大 的 整数 映射 到 从 0 到 MM-1 
范围 内 的 比较 小 的 整数 。 令 p 为 比 最 大 输入 键 值 大 的 一 个 素数 。 我 们 的 通用 族 五 将 由 下 列 函 数 
集 组 成 ， 其 中 a 和 65 是 随机 选取 的 : 

H=|H,,(x) =((ax+b)modp)mod M, 其 中 1<asp-1, 0<b<p-1} 
fm, ERDEP, (a, b) 的 三 种 可 能 的 随机 选择 导致 三 种 不 同 的 散 列 函数 : 
H,,(x) =((3x+7)mod p) mod M 
H, (x) 2 ((4x * 1) mod p) mod M 
H; o (x) = ((8x) mod p) mod M 
观察 到 存在 p(p -1) 种 有 可 能 被 选取 的 散 列 函数 。 —- 

定理 5.4 WE H= LH, (x) =((ax+b) mod p) mod M, KP 1<a<p-1, 0<b<p-1| 
是 通用 的 。 

证 明 : 

令 x 和 y 取 不 同 的 值 且 x>y, 使 得 H,,(x)=H,,(yY)。 

显然 如 果 (ax +b) mod p EF (ay * b) mod p， 就 会 有 冲突 。 然 而 ,这 是 不 会 发 生 的 : 两 式 相 
减 得 到 a(x — y) 三 0( mod p), ERKE p 整除 a 或 者 p RHR x-y, WH p 是 素数 。 但 是 哪个 都 不 
可 能 发 生 ， 因 为 a 和 x--y 都 在 1 ~p-1 Zia]. 

所 以 令 r=(ax+b)mod p, 并 令 s=(ay+b)mod p， 由 上 述 推导 可 知 r 关 s。 于 是 r+ 有 pp 个 可 能 
的 值 ， 且 对 每 个 r 存在 p -1 个 可 能 的 的 值 ， 一 共有 p(p -1) 对 可 能 的 (r，s)。 注 意 到 (a, b) Xt 
的 个 数 和 (r，s) 对 的 个 数 是 一 样 的 ， 所 以 如 果 我 们 可 以 用 r 和 ;把 (a, 5) 解 出 来 ， 则 每 对 (r，s) 
将 只 对 应 一 对 (ga, b) IRRD: 和 前 面 一 样 ， 两 式 相 减 得 到 a(x -y)=(r-s)(modp)， 意 
味 着 两 边 同 乘 以 (x -y) 的 唯一 倒数 (此 倒数 一 定 存 在 ， 因 为 x -y 非 零 并 且 p 是 素数 )， 我 们 就 
得 到 了 用 上 和 ;表示 的 a， 然 后 4 也 随 之 得 到 。 

最 后 ， 这 意味 着 * Ay 冲突 的 概率 等 于 rs (mod 以) 的 概率 ， 而 上 述 分 析 允 许 我 们 假设 7 
Als 是 随机 选取 的 ， 而 不 是 a 和 4b。 直 觉 立 刻 觉得 这 个 概率 应 该 是 1AM， 但 这 仅 当 是 的 整 
数 倍 并 且 所 有 可 能 的 (r，s) 对 是 等 概率 出 现时 才 成 立 。 既 然 p 是 素数 ,并且 res, XXXIX VE 
了 ， 所 以 需要 更 谨慎 的 分 析 。 

对 一 个 给 定 的 r， 能 够 对 M 取 模 后 发 生 冲 突 的 * 的 值 的 个 数 至 多 是 [ pMM 1-1( 有 -1 是 因 
A rs). EXE dX ESSE -1)/AM。 所 以 r+ 和 ;会 产生 冲突 的 概率 至 多 是 MR 
们 除 以 p -1， 是 因为 如 前 所 述 ， 对 给 定 的 r- 仅 有 pl1 种 对 s 的 选择 ) 。 这 就 意味 着 此 散 列 族 
是 通用 的 。 E 

这 个 散 列 函 数 的 实现 好 像 需 要 做 两 次 取 模 操作 ;第 一 次 对 p 取 模 ,第 二 次 对 M 取 模 。 图 5-50 
展示 了 一 个 Java 的 简单 实现 ,假设 M 远 小 于 Java 整数 的 上 限 2”- 1。 因 为 现在 要 求 计算 必须 
严格 按照 指定 的 进行 ， 所 以 溢出 是 不 能 接受 的 ， 我 们 提升 到 64 位 长 的 计算 。 


public static int universalHash( int x, int A, int B, int P, int M) 


{ 


return (int) ( ( ( (long) Axx) * B) P) % M 
} 





图 5-50 通用 散 列 的 简单 实现 


然而 ,我 们 可 以 选择 任何 素数 p， 只 要 它 大 于 M。 所 以 ， 选 一 个 对 计算 最 有 利 的 素数 是 有 
意义 的 。p =2” -1 就 是 一 个 这 样 的 素数 。 这 种 形式 的 素数 叫 梅森 ( Mersenne) 素数 ， 其 他 的 梅 
森 素 数 包 括 2 -1、2”-1 以 及 2”-1。 乘 一 个 如 31 这 样 的 梅森 素数 可 以 用 位 移 运 算 和 一 次 减 
法 来 完成 ， 同 样 ， 一 次 对 梅森 素数 的 取 模 运算 也 可 以 用 位 移 运 算 和 一 次 加 法 来 完成 : 

设 r=y( mod p)。 帮 我 们 用 y 除 以 (p+1), 则 y=g (p+1) +r"， 其 中 gqg' 和 7' 分 别 是 商 和 
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余数 。 所 以 , r=q'(p+1) *r'(mod p). HA A(p +1) =1( mod p)， 所 以 我 们 得 到 rg +r’ 
(mod p) , 

” ”图 5-51 实现 了 这 个 称 为 卡特 - 韦 格 曼 绝招 ( Carter- Wegman trick) 的 思路 。 在 第 8 行 ， 位 移 计 
算 除 以 (p+1) 时 的 商 ， 按 位 与 则 计算 余数 。 这 些 位 运算 之 所 以 能 用 ， 是 因为 (p+1) 是 2 的 整 
数 次 方 。 因 为 余数 有 可 能 跟 p 一 样 大 ， 得 到 的 和 有 可 能 大 于 P， 所 以 我 们 在 第 9 行 和 第 10 行 把 
它 缩减 回来 。 


public static final int DIGS = 31; 
public static final int mersennep = (1<<DIGS) - 1; 


public static int universalHash( int x, int A, int B, int M ) 
{ 
long hashVal = (long) A * x + B; 


hashVal = ( ( hashVal >> DIGS ) + ( hashVal & mersennep ) ); 
if( hashVal >= mersennep ) 
hashVal -= mersennep; 


return (int) hashVal % M; 


} 





图 5-51 通用 散 列 的 简单 实现 


针对 字符 串 的 通用 散 列 函数 也 是 存在 的 。 首 先 ， 选 取 任意 大 于 M( 并 且 大 于 最 大 的 字符 编 
码 ) 的 素数 p。 然 后 用 我 们 的 标准 字符 串 散 列 函 数 ， 在 1 ~p -1 之 间 随 机 选取 乘 数 ， 返 回 一 个 
0 ~p 一 1 闭 区 间 内 的 中 间 散 列 值 。 最 后 ， 用 一 个 通用 散 列 函数 生成 0~M - 1 之 间 的 最 后 的 散 
列 值 。 


5.9 可 扩散 列 


本 章 最 后 的 论题 处 理 数据 量 太 大 以 至 于 装 不 进 主 存 的 情况 。 正 如 我 们 在 第 4 章 看 到 的 , 此 
时 主要 的 考虑 是 检索 数据 所 需 的 磁盘 存 取 次 数 。 

与 前 面 一 样 , 我 们 假设 在 任 一 时 刻 都 有 N 个 记录 要 存储 ; N 的 值 随时 间 而 变化 。 此 外 , 最 
多 可 把 M 个 记录 放 人 一 个 磁盘 区 块 。 本 节 将 设 M =4。 

如 果 使 用 探测 散 列 或 分 离 链接 散 列 , 那么 主要 的 问题 在 于 , 在 一 次 查找 操作 期 间 冲 突 可 能 
引起 多 个 区 块 被 检察 , 其 至 对 于 理想 分 布 的 散 列表 也 在 所 难免 。 不 仅 如 此 ， 当 散 列表 变 得 过 满 
的 时 候 , 必须 执行 代价 巨大 的 再 散 列 这 一 步 , 它 需 要 0(NN) 次 磁盘 访问 。 

一 种 聪明 的 选择 叫 作 可 扩散 列 ( extendible hashing) , 它 使 得 用 两 次 磁盘 访问 执行 一 次 查找 。 
插入 操作 也 需要 很 少 的 磁盘 访问 。 

回忆 第 4 3€, B 树 具 有 深度 O(logw N) 。 随 着 M 的 增长 , B 树 的 深度 降低 。 理 论 上 我 们 可 
以 选择 M 非常 大 , 使 得 B 树 的 深度 为 1。 此 时 , 在 第 一 次 以 后 的 任何 查找 都 将 花费 一 次 磁盘 访 
问 , 因为 根 节点 很 可 能 存放 在 主 存 中 。 这 种 方法 的 问题 在 于 分 支 系数 (branching factor) KE, VA 
至 于 为 了 确定 数据 在 哪 片 树叶 上 要 进行 大 量 的 处 理工 作 。 如 果 运 行 这 一 步 的 时 间 可 以 减 缩 , 那 
么 我 们 就 将 有 一 个 实际 的 方案 。 这 正 是 可 扩散 列 使 用 的 策略 。 

现在 假设 我 们 的 数据 由 几 个 6 比特 整数 组 成 。 图 5-52 显示 这 些 数据 的 可 扩散 列 格式 。 这 
里 的 “ 树 ” 的 根 含有 4 个 链 , 它们 由 这 些 数 据 的 前 两 个 比特 确定 。 每 片 树 叶 有 直到 M =4 个 元 
素 。 碰 巧 这 里 每 片 树叶 中 数据 的 前 两 个 比特 都 是 相同 的 ; 这 由 圆 括号 内 的 数 指出 。 为 了 更 正 
A, 用 DD 代表 根 所 使 用 的 比特 数 , 有 时 称 其 为 目录 ( directory ) 。 于 是 , 目录 中 的 项 数 为 2”。d， 


x Al 149 


为 树叶 L 所 有 元 素 共有 的 最 高 位 的 比特 位 数 。d, 将 依赖 于 特定 的 树叶 , 因此 d, <D. 

设 欲 插入 关键 字 100 100。 它 将 进入 第 三 片 树叶 , 但 是 第 三 片 树叶 已 经 满 了 , 没有 空间 存放 
它 。 因 此 我 们 将 这 片 树叶 分 裂 成 两 片 树叶 , 它们 由 前 三 个 比特 确定 。 这 需要 将 目录 的 大 小 增加 
到 3。 这 些 变化 由 图 5-53 反映 出 来 。 





图 5-52 np mo: 原始 数据 图 5-53 可 扩散 列 ; 在 100 100 插 人 及 目录 分 裂 后 
注意 , 所 有 未 被 分 裂 的 树叶 现在 各 由 两 个 相 邻 目录 项 所 指 。 因 此 ， 虽 然 整个 目录 被 重 写 ， 
但 是 其 他 树叶 都 没有 被 实际 访问 。 i 
如 果 现 在 插入 关键 字 000 000, 那么 第 一 片 树叶 就 要 被 分 裂 , 生成 d, 23 的 两 片 树叶 。 由 于 
D=3, 故 在 目录 中 所 作 的 唯一 变化 是 000 和 001 两 个 链 的 更 新 。 见 图 5-54。 


这 个 非常 简单 的 方法 提供 了 对 大 型 数据 [oo | o1 | oro | ort | 100 | 





库 insert 操作 和 查找 操作 的 快速 存 取 时 间 。 
这 里 , 还 有 一 些 重要 细节 我 们 尚未 考虑 。 

首先 , 有 可 能 当 一 片 树叶 的 元 素 有 多 于 
D+1 个 前 导 比 特 位 相同 时 需要 多 次 目录 分 
裂 。 例 如 , 从 原先 的 例子 开始 , D=2, 如 果 插 
入 111 010, 111 011, 并 在 最 后 插入 111 100, 
那么 目录 大 小 必须 增加 到 4 以 区 分 5 个 关键 ”图 5-54 可 扩散 列 : 在 000 000 插入 及 树叶 分 裂 后 
字 。 这 是 一 个 容易 考虑 到 的 细节 , 但 是 千 万 不 要 忘记 它 。 其 次 , 存在 重复 关键 字 ( duplicate 
keys) 的 可 能 性 ; 若 存 在 多 于 MM 个 重复 关键 字 , 则 该 算法 根本 无 效 。 此 时 ,需要 作出 某 些 其 他 的 
安排 。 

上 述 可 能 性 指出 , 这 些 比 特 完全 随机 是 相当 重要 的 , 它 可 以 通过 把 那些 关键 字 散 列 到 合理 
的 长 整数 来 实现 。 

最 后 , 我 们 介绍 可 扩散 列 的 某 些 性 能 , 这 些 性 能 是 经 过 非常 困难 的 分 析 后 得 到 的 。 这 些 结 
果 基 于 合理 的 假设 : 位 模式 (bit pattern) 是 均匀 分 布 的 。 

树叶 的 期 望 个 数 为 (NAM)log, eo FAL, 平均 树叶 满 的 程度 为 In 2 =0.69。 这 和 B 树 是 一 样 
的 , 其 实 这 完全 不 奇怪 , 因为 对 于 两 种 数据 结构 , 都 是 当 第 (M+1) 项 被 添加 进来 时 一 些 新 的 节 
点 被 建立 。 

更 令 人 惊奇 的 结果 是 目录 的 期 望 大 小 ( 换 句 话说 即 2”) 为 O(N 17M) & n M MR, 那 
么 目录 可 能 过 大 。 在 这 种 情况 下 , 我 们 可 以 让 树叶 包含 指向 记录 的 链 而 不 是 实际 的 记录 , 这 样 
可 以 增加 MM 的 值 。 为 了 维持 更 小 的 目录 , 这 就 对 每 次 查找 操作 增加 了 第 二 次 磁盘 访问 。 如 果 目 
录 太 大 装 不 进 主 存 , 那么 第 二 次 磁盘 访问 无 论 如 何 也 还 是 需要 的 。 


小 结 
散 列表 可 以 用 来 以 常数 平均 时 间 实 现 insert 和 查找 操作 。 当 使 用 散 列表 时 注意 诸如 装填 


因子 这 样 的 细节 是 特别 重要 的 , 否则 时 间 界 将 不 再 有 效 。 当 关键 字 不 是 短 的 串 或 整数 时 , 仔细 
选择 散 列 函数 也 是 很 重要 的 。 
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对 于 分 离 链 接 散 列 法 , 虽然 装填 因子 不 很 大 时 性 能 并 不 明显 降低 , 但 装填 因子 还 是 应 该 接 
HF 1。 对 于 探测 散 列 算法 , 除非 完全 不 可 避免 ,否则 装填 因子 不 应 该 超过 0.5。 如 果 使 用 线性 
探测 , 那么 性 能 随 着 装填 因子 接近 于 1 将 急速 下 降 。 再 散 列 运算 可 以 通过 使 散 列表 增长 (和 收 
缩 ) 来 实现 , 这 样 将 会 保持 合理 的 装填 因子 。 对 于 空间 紧缺 并 且 不 可 能 声明 巨大 散 列表 的 情况 ， 
这 是 很 重要 的 。 

其 他 选择 (如 布谷 鸟 散 列 和 跳 房 子 散 列 ) 也 可 以 得 到 好 的 结果 。 因 为 这 些 算法 都 是 常数 时 
间 的 ， 所 以 很 难 有 力 地 说 明 哪 个 散 列表 实现 是 “最 好 的 "。 最 近 的 仿真 结果 给 出 了 了 矛盾 的 导 
向 ， 暗 示 效 率 可 能 强烈 依赖 于 所 处 理 的 项 的 类 型 、 计 算 机 底层 硬件 以 及 编程 语言 。 

二 叉 查 找 树 也 可 以 用 来 实现 insert 和 contains 和 运算。 虽然 平均 时 间 界 为 O(log N), 但 
是 二 叉 查找 树 也 支持 那些 需要 序 从 而 功能 更 强大 的 例 程 。 使 用 散 列表 不 可 能 找 出 最 小 元 素 。 除 
非 准确 知道 一 个 字符 串 , 否则 散 列表 也 不 可 能 有 效 地 查找 它 。 二 叉 查 找 树 可 以 迅速 找到 在 一 定 
范围 内 的 所 有 项 ; 散 列表 是 做 不 到 的 。 此 外 ,0(log N) 这 个 时 间 界 也 不 一 定 比 9(1) 大 很 多 , 这 
特别 是 因为 使 用 查找 树 不 需要 乘法 和 除法 。 

另 一 方面 , 散 列 的 最 坏 情 况 一 般 来 自 于 实现 的 错误 , 而 有 序 的 输入 却 可 能 使 二 又 树 运 行 得 
很 差 。 平 衡 查找 树 实现 的 代价 相当 高 , 因此 , 如果 不 需要 有 序 的 信息 以 及 对 输入 是 否 被 排序 存 
有 怀疑 那么 就 应 该 选择 散 列 这 种 数据 结构 。 

散 列 有 着 丰富 的 应 用 。 编 译 器 使 用 散 列表 跟踪 源 代码 中 声明 的 变量 。 这 种 数据 结构 叫 作 符 
号 表 (symbol table) 。 散 列表 是 这 种 问题 的 理想 应 用 。 标 识 符 一 般 都 不 长 ;因此 其 散 列 函 数 能 够 
迅速 被 算出 ， 而 按 字母 顺序 排列 变量 通常 没有 必要 。 

对 于 任何 带 有 实际 名 字 而 非 数 字 的 节点 的 图 论 问题 ， 散 列表 都 是 有 用 的 。 这 里 ， 当 输入 被 
读 人 的 时 候 , 顶点 按照 它们 出 现 的 顺序 从 1 开始 被 指定 一 些 整 数 。 再 有 , 输入 很 可 能 有 一 组 一 
组 依 字母 顺序 排列 的 项 。 例 如 ,顶点 可 以 是 计算 机 。 此 时 , 如 果 二 个 特定 的 设备 把 它 的 计算 机 
列 成 ibml , ibm2, ibm3, =, 那么 , 若 使 用 查找 树 则 在 效率 方面 可 能 会 受到 戏剧 性 的 影响 。 

散 列表 第 三 种 常见 的 用 途 是 在 游戏 程序 中 。 当 程序 搜索 游戏 不 同 的 行 时 , 它 跟踪 通过 计算 
基于 位 置 的 散 列 函 数 而 看 到 的 一 些 位 置 (并 把 对 于 该 位 置 的 移动 存储 起 来 ) 。 如 果 同 样 的 位 置 
再 出 现 , 程序 通常 通过 移动 的 简单 变换 来 避免 昂贵 的 重复 计算 。 所 有 游戏 程序 的 这 种 一 般 特征 
叫 作 转移 表 (tranposition table) 。 

散 列 的 另 一 个 用 途 是 在 线 拼 写 检验 程序 。 如 果 错 拼 检测 (与 正确 性 相 比 ) 重 要 , 那么 整个 词 
典 可 以 预先 被 散 列 ,单词 则 可 以 常数 时 间 被 检测 。 散 列表 很 适合 这 项 工作 , 因为 以 字母 顺序 排 
列 单词 并 不 重要 ; 而 以 它们 在 文件 中 出 现 的 顺序 显示 出 错误 拼写 当然 是 可 接受 的 。 

散 列表 经 常用 于 实现 缓存 ， 既 在 软件 中 (例如 ， 你 的 互联 网 浏览 器 的 缓存 ) 也 在 硬件 中 ( 例 
如 ， 现 代 计算 机 中 内 存 的 缓存 ) 。 它 们 还 被 用 于 路 由 器 的 硬件 实现 。 

我 们 以 第 一 章 的 字谜 问题 来 结束 本 章 。 如 果 使 用 第 一 章 中 描述 的 第 二 个 算法 , 并 且 假设 最 
大 单词 的 大 小 是 某 个 小 常数 , 那么 读 和 人 包含 WW 个 单词 的 词典 并 把 它 放 入 散 列表 的 时 间 是 
OCW) 。 这 个 时 间 很 可 能 由 磁盘 IO 而 不 是 由 那些 散 列 例 程 起 支配 作用 。 算 法 的 其 余部 分 将 对 
每 一 个 四 元 组 ( 行 , 列 , 方向 , 字符 数 ) 测 试 一 个 单词 是 否 出 现 。 由 于 每 次 查询 时 间 为 0(1), 而 
只 存在 常数 个 数 的 方向 (8) 和 每 个 单词 的 字符 , 因此 这 一 阶段 的 运行 时 间 为 OCR - C) 。 总 的 运 
行 时 间 是 OCR- C - W) , 它 是 对 原始 OCR - C - W) 的 明显 的 改进 。 我 们 还 可 以 做 进一步 的 优 
化 , 它 能 够 降低 实际 的 运行 时 间 ; 这 些 将 在 练习 中 描述 。 
练习 
8..1 给 定 输入 14371, 1323, 6173, 4199, 4344, 9679, 1989 | FHA BRA (x) =x( mod 10) ,给 出 下 

列 结果 : 
a. 分 离 链 接 散 列表 。 
b. 使 用 线性 探测 的 散 列 表 。 
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c. 使 用 平方 探测 的 散 列 表 。 

d. 第 二 个 散 列 函 数 为 h(x) =7 —x( mod 7) 的 散 列表 。 

给 出 将 练习 5. 1 中 的 散 列表 再 散 列 的 结果 。 

编写 一 个 程序 , 计算 使 用 线性 探测 、 平 方 探测 、 双 散 列 时 的 长 随机 插入 序列 中 所 需 的 冲突 次 数 。 
在 分 离 链接 散 列表 中 进行 大 量 的 删除 可 能 造成 表 非常 稀疏 , 浪费 空间 。 在 这 种 情况 下 , 可 以 再 散 
列 一 个 表 , 为 原 表 的 一 半 大 。 设 当 存 在 相当 于 表 的 大 小 的 二 倍 的 元 素 的 时 候 , 我 们 再 散 列 到 一 个 
更 大 的 表 。 该 表 应 该 有 多 么 稀疏 才能 再 散 列 到 一 个 更 小 的 表 ? 


5.5 用 单 链 表 而 非 java. util.LinkedList 重新 实现 分 离 链接 散 列 表 。 


5.6 
3 


“5.14 
5.15 


5.16 


平方 探测 的 isEmpty 例 程 还 没有 写 出 。 你 能 通过 返回 表达 式 currentSize --0 实现 它 吗 ? 

在 平方 探测 散 列表 中 , 设 我 们 把 一 个 新 项 插入 到 搜索 路 径 上 第 一 个 非 活 动 的 单元 而 不 是 把 它 插 入 到 

由 findPos 指定 的 位 置 (这 样 , 能 够 重新 声明 一 个 标记 “deleted” 的 单元 , 潜在 地 节省 了 空间 )。 

a 使 用 上 述 分 析 重 新 编写 插入 算法 。 通 过 使 用 一 个 附加 变量 让 findPos 保留 它 遇 到 的 第 一 个 非 
活动 单元 的 位 置 来 完成 重 写 的 工作 。 

b. 解释 使 得 重 写 的 算法 快 于 原来 算法 的 环境 。 重 写 的 算法 可 能 会 更 慢 吗 ? 

假设 我 们 用 “立方 探测 ”取代 平方 探测 ， 这 里 第 i 次 探测 在 hash (x) + 六 。 立 方 探 测 比 平方 探测 

有 改进 吗 ? 

图 5-4 中 的 散 列 函数 在 for 循环 中 对 key. length ) 进行 重复 调用 。 每 次 进入 循环 以 前 对 它 进 

行 一 次 计算 值得 吗 ? 

各 种 冲突 解决 方案 的 优点 和 缺点 是 什么 ? 

假设 为 了 减轻 二 次 聚集 的 影响 , 我 们 使 用 函数 f(i) =i- r(hash( x) ) 作 为 冲突 解决 方案 , 其 中 hash 

(x) 为 32 比特 散 列 值 (尚未 化 成 适当 的 数组 下 标 ), 而 r(y) = | 48 271 y( mod(2" -1)) | mod 

TableSize, (10.4. 1 节 描 述 一 种 执行 这 种 计算 而 不 溢出 的 方法 , 不 过 , 在 这 种 情况 下 溢出 是 不 可 能 

的 ) 。 解 释 为 什么 这 种 方法 趋向 于 避免 二 次 聚集 , 并 将 这 种 方法 与 双 散 列 及 平方 探测 进行 比较 。 

再 散 列 要 求 对 散 列 表 中 的 所 有 项 重新 计算 散 列 函数 。 由 于 计算 散 列 函数 开销 巨大 , 因此 设 对 象 提 

供 它们 自己 的 散 列 成 员 函 数 , 而 每 个 对 象 在 散 列 函 数 第 1 次 被 计算 时 都 把 结果 存 和 人 一 个 附加 的 数 

据 成 员 中 。 指 出 这 种 方案 如 何 用 于 图 5-8 中 的 Employee 类 , 并 解释 在 什么 情况 下 这 些 所 记忆 的 

散 列 值 在 每 个 Employee 中 仍然 有 效 。 

编写 一 个 程序 , 实现 下 面 的 方案 , 将 大 小 分 别 为 MAN 的 两 个 稀疏 多 项 式 (sparse polynomial ) P, 

和 P. 相 乘 。 每 个 多 项 式 表示 成 为 对 象 的 一 个 链表 , 这 些 对 象 由 系数 和 寡 组 成 (练习 3. 12) 。 我 们 

用 P, 的 项 乘 以 忆 的 每 一 项 , 总 数 为 MN 次 运算 。 一 种 方法 是 将 这 些 项 排序 并 合并 同类 项 , 但 是 ， 

这 需要 排序 MN 个 记录 , 代价 可 能 很 高 , 特别 是 在 小 内 存 环境 下 。 另 一 种 方案 , 我 们 可 在 多 项 式 

的 项 进行 计算 时 将 它们 合并 , 然后 将 结果 排序 。 

a 编写 一 个 程序 实现 第 二 种 方案 。 

b. 如 果 输 出 多 项 式 大 约 有 O(M +N), 两 种 方法 的 运行 时 间 各 是 多 少 ? 

描述 一 个 避免 初始 化 散 列 表 的 过 程 (以 内 存 消耗 为 代价 ) 。 

设 和 欲 找 出 在 长 输入 串 ALAS SA, PE PP,…P; 的 第 一 次 出 现 。 我 们 可 以 通过 散 列 模式 串 ( pattern 

string) 得 到 一 个 散 列 值 H,, 并 将 该 值 与 从 442 Ar, AzA tAk AsAa Arz» 等 等 直到 LU 

Ay iuo An 形成 的 散 列 值 比较 来 解决 这 个 问题 。 如 果 得 到 散 列 值 的 一 个 匹配 , 那么 再 逐个 字符 地 

对 串 进 行 比较 以 检验 这 个 匹配 。 如 果 串 实际 上 确实 匹配 , 那么 返回 其 (在 4 中 的 ) 位 置 , 而 在 匹配 

失败 这 种 不 大 可 能 的 情况 下 继续 进行 查找 。 


“a. 证 明 如 果 4:4;,,…4;,,_1 的 散 列 值 已 知 , 那么 4;,14;,2…4i;,4 的 散 列 值 可 以 以 常数 时 间 算 出 。 


b. 证 明 运 行 时 间 为 0( 上 +N) 加 上 排除 错误 匹配 所 耗费 的 时 间 。 


“ec. 证 明 错 误 匹 配 的 期 望 次 数 是 微不足道 的 。 


d. 编写 一 个 程序 实现 该 算法 。 


"e 描述 一 个 算法 , 其 最 坏 情 形 的 运行 时 间 为 O(k +N). 
UL 描述 一 个 算法 ,其 平均 运行 时 间 为 0(N/k) 。 


Java 7 增加 了 一 项 语法 ， 人 允许 switch 语句 处 理 字符 串 类 型 ( 而 不 是 原来 的 整数 类 型 ) 。 解 释 编译 器 
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5.21 


如 何 将 散 列表 用 于 实现 这 个 语言 的 扩展 。 

一 个 (老式 的 ) BASIC 程序 由 一 系列 按 递增 顺序 编号 的 语 名 组成。 控制 是 通过 使 用 goto 或 gosub 和 
一 个 语句 编号 实现 的 。 编 写 一 个 程序 读 进 合法 的 BASIC 程序 并 给 语句 重新 编号 , 使 得 第 一 句 在 序 
号 了 处 开始 并 且 每 一 个 语句 的 序号 比 前 一 语句 高 0。 可 以 假设 入 条 语句 的 一 个 上 限 , 但 是 在 输入 
中 语句 序号 可 以 大 到 32 比特 的 整数 。 所 编 的 程序 必须 以 线性 时 间 运 行 。 


a. 


b 


d. 


利用 本 章 末 尾 描 述 的 算法 实现 字迹 程序 。 

通过 存储 每 一 个 单词 W 以 及 W 的 所 有 前 缀 , 可 以 大 大 加 快运 行 速度 (如 果 W 的 一 个 前 级 刚好 
是 词典 中 的 一 个 单词 , 那么 就 把 它 作 为 实际 的 单词 来 储存 ) 。 虽 然 这 看 起 来 极 大 地 增加 了 散 列 
表 的 大 小 , 但 实际 上 并 非 如 此 , 因为 许多 单词 有 相同 的 前 级 。 当 以 某 个 特定 的 方向 执行 一 次 扫 
描 的 时 候 , 如 果 被 查找 的 单词 甚至 作为 前 级 都 不 在 散 列表 中 , 那么 在 这 个 方向 上 的 扫描 可 以 及 
早 终止 。 利 用 这 种 想法 编写 一 个 改进 的 程序 来 解决 字谜 游戏 问题 。 


.如 果 我 们 愿意 牺牲 散 列表 ADT 的 性 能 , 那么 可 以 在 (b) 部 分 使 程序 加 速 : 例如 ,如 果 我 们 刚刚 


计算 出 “excel” 的 散 列 函数 , 那么 就 不 必 再 从 头 开 始 计算 “excels” 的 散 列 函数 。 调 整 散 列 函 
数 使 得 它 能 够 利用 前 面 的 计算 。 

在 第 2 章 我 们 建议 使 用 折 半 查找 。 把 使 用 前 缀 的 想法 结合 到 你 的 折 半 查找 算法 中 。 修 改 工作 
应 该 简单 。 哪 个 算法 更 快 ? 


在 某 些 假设 下 , 向 带 有 二 次 聚集 的 散 列表 进行 的 一 次 插入 操作 的 期 望 代价 由 1/(1 -入 ) -入 -In(1- 


A) 


a. 


b. 


给 出 。 不 过 , 这 个 公式 对 于 平方 探测 并 不 精确 。 我 们 假设 它 是 准确 的 ， 确定: 


一 次 不 成 功 查找 的 期 望 代价 。 
一 次 成 功 查 找 的 期 望 代价 。 


实现 支持 put 和 get 操作 的 泛 型 Map。 该 实现 方法 将 存储 (关键 字 , 定义 ) 对 的 散 列表 。 图 5-55 
提供 Map 的 说 明 ( 去 掉 某 些 细节 ) 。 


class Map<KeyType, ValueType> 
{ 
public Map( ) 


public void put( KeyType key, ValueType val ) 
public ValueType get( KeyType key ) 

public boolean isEmpty( ) 

public void makeEmpty( ) 


private QuadraticProbingHashTable<Entry<KeyType,ValueType>> items; 


private static class Entry«KeyType, ValueType» 
{ 

KeyType key; 

ValueType value; 

// Appropriate Constructors, etc. 





图 5-55 练习 5.20 的 Map 架构 


通过 使 用 散 列表 实现 一 个 拼写 检查 程序 。 设 词典 来 自 两 个 来 源 : 一 本 现 有 的 大 词典 以 及 包含 一 本 
个 人 词典 的 第 二 个 文件 。 输出 所 有 错 拼 的 单词 和 这 些 单词 出 现 的 行 号 。 再 有 , 对 于 每 个 错 拼 的 单 
ij, 列 出 应 用 下 列 任 一 种 法 则 在 词典 中 能 够 得 到 的 任意 的 单词 : 

a. 添加 一 个 字符 。 


b. 


C. 


去 掉 一 个 字符 。 
交换 两 个 相 邻 的 字符 。 


5.22 ”证 明 马 尔 可 夫 不 等 式 ( Markov”s Inequality); 如 果 XX 是 任意 随机 变量 , 且 a >0, W Pr( |X| 2a) < 


# 列 153 











EC | X | )/a。 证 明 如 何 将 这 个 不 等 式 用 于 定理 5.2 和 定理 5.3。 

5.23. 如果 一 个 带 参数 MAX. DIST 的 跳 房 子 散 列表 具有 装填 因子 0. 5， 一 次 插入 需要 再 散 列 的 近似 概率 
是 多 少 ? 221 

5.24 ”实现 一 个 跳 房 子 散 列表 ， 并 将 其 表现 与 线性 探测 、 分 离 链接 以 及 布谷 鸟 散 列 进行 比较 。 

5.25 ”实现 分 别 维护 两 个 表 的 经 典 布谷 鸟 散 列 表 。 最 简单 的 做 法 是 用 单个 数组 ， 修 改 散 列 函数 实现 访 
问 上 半 部 分 或 者 访问 下 半 部 分 。 

5.26 扩展 经 典 布谷 鸟 散 列 表 以 使 用 d 散 列 函数 。 

5.27 指出 将 关键 字 10 111 101, 00000010, 10011 011, 10 111 110, 01 111 111, 01 010001 , 10010 110, 
00 001 011, 11 001 111, 10011 110, 11 011 O11, 00 101 O11, 01 100001 , 11 110000, 01 101 111 {f 
入 到 一 个 空 的 初始 可 扩散 列 数据 结构 中 的 结果 , 其 中 M =4。 

5. 28 ”编写 一 个 程序 实现 可 扩散 列 法 。 如 果 散 列表 小 到 足 可 装 人 内存 ， 壮 么 它 的 性 能 与 分 离 链 接 法 和 开 
放 定 址 散 列 法 相 比 如 何 ? 
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第 6 章 | 


Data Structures and Algorithm Analysis in Java, Third Edition 


优先 队列 ( 堆 ) 





虽然 发 送 到 打印 机 的 作业 一 般 被 放 到 队列 中 , 但 这 未 必 总 是 最 好 的 做 法 。 例 如 , 可 能 有 一 项 
作业 特别 重要 , 因此 希望 只 要 打印 机 一 有 空闲 就 来 处 理 这 项 作业 。 反 之 , 若 在 打印 机 有 空 时 正好 
有 多 个 单 页 的 作业 及 一 项 100 页 的 作业 等 待 打印 , 则 更 合理 的 做 法 也 许 是 最 后 处 理 长 的 作业 , 尽 
管 它 不 是 最 后 提交 上 来 的 (不 幸 的 是 , 大 多 数 的 系统 并 不 这 么 做 ， 有 时 可 能 特别 令 人 愧 恼 ) 。 

类 似 地 , 在 多 用 户 环境 中 , 操作 系统 调度 程序 必须 决定 在 若干 进程 中 运行 哪个 进程 。 一 般 
一 个 进程 只 被 允许 运行 一 个 固定 的 时 间 片 。 一 种 算法 是 使 用 一 个 队列 。 开 始 时 作业 被 放 到 队列 
的 末尾 。 调 度 程序 将 反复 提取 队列 中 的 第 一 个 作业 并 运行 它 , 直到 运行 完毕 ,或 者 该 作业 的 时 
间 片 用 完 , 并 在 作业 未 运行 完毕 时 把 它 放 到 队列 的 末尾 。 这 种 策略 一 般 并 不 太 合 适 , 因为 一 些 
很 短 的 作业 由 于 一 味 等 待 运行 而 要 花费 很 长 的 时 间 去 处 理 。 一 般 说 来 , 短 的 作业 要 尽 可 能 快 地 
SR, 这 一 点 很 重要 , 因此 在 已 经 运行 的 作业 当中 这 些 短 作业 应 该 拥有 优先 权 。 此 外 , 有 些 作 
业 虽 不 短小 但 很 重要 , 也 应 该 拥有 优先 权 。 

这 种 特殊 的 应 用 似乎 需要 一 类 特殊 的 队列 , 我 们 称 之 为 优先 队列 ( priority queue) 。 在 本 章 
中 , 我 们 将 讨论 : 

© 优先 队列 ADT 的 有 效 实现 。 

© 优先 队列 的 使 用 。 

© 优先 队列 的 高 级 实现 。 

我 们 将 看 到 的 这 类 数据 结构 属于 计算 机 科学 中 最 精致 的 一 种 。 


6.1 模型 


优先 队列 是 允许 至 少 下 列 两 种 操作 的 数据 结构 : insert (HHA), 它 的 作用 是 显而易见 的 ; 
以 及 deleteMin( 删除 最 小 者 ), 它 的 工作 是 找 出 、 返 回 并 删除 优先 队列 中 最 小 的 元 素 。 
insert 操作 等 价 于 enqueue( ABA), 而 deleteMin 则 是 队列 运算 dequeue( 出 队 ) 在 优先 


队列 中 的 等 价 操作 。 
如 同 大 多 数 数据 结构 那样 ,有 时 可 能 要 添 sata | 优先 队列 E^ 
加 一 些 其 他 的 操作 , 但 这 些 添加 的 操作 属于 扩 


" N 6-1 is Im ji 

TA ias EO aiia 图 6-1 优先 队列 的 基本 模型 

除了 操作 系统 外 ;7 优先 队列 还 有 许多 的 应 用 。 在 第 T 章 , 我 们 将 看 到 优先 队列 如 何 用 于 外 
部 排序 。 在 贪 禁 算 法 ( greedy algorithm) 的 实现 方面 优先 队列 也 是 很 重要 的 , 该 算法 通过 反复 求 
出 最 小 元 来 进行 操作 ; 在 第 9 章 和 第 10 章 我 们 将 看 到 一 些 特 殊 的 例子 。 本 章 将 介绍 优先 队列 在 
离散 事件 模拟 中 的 一 个 应 用 。 
6.2 一 些 简单 的 实现 

有 几 种 明显 的 方法 可 用 于 实现 优先 队列 。 我 们 可 以 使 用 一 个 简单 链表 在 表 头 以 0(1) 执行 
插入 操作 , 并 遍历 该 链表 以 删除 最 小 元 , 这 又 需要 OCN) 时 间 。 另 一 种 方法 是 始终 让 链表 保持 
排序 状态 ; 这 使 得 插入 代价 高 昂 (O(N) ) 而 deleteMin 花费 低廉 (0(1))。 基 于 deleteMin 
的 操作 从 不 多 于 插入 操作 的 事实 , 前 者 恐怕 是 更 好 的 想法 。 

男 一 种 实现 优先 队列 的 方法 是 使 用 二 又 查 找 树 , 它 对 这 两 种 操作 的 平均 运行 时 间 都 是 
O(log N)。 尽 管 插入 是 随机 的 , 而 删除 则 不 是 , 但 这 个 结论 还 是 成 立 的 。 记 住 我 们 删除 的 唯一 
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元 素 是 最 小 元 。 反 复 除 去 左 子 树 中 的 节点 似乎 会 损害 树 的 平衡 , 使 得 右 子 树 加 重 。 然 而 , AF 
树 是 随机 的 。 在 最 坏 的 情形 下 , Bl deleteMin 将 左 子 树 删 空 的 情形 下 , 右 子 树 拥有 的 元 素 最 
多 也 就 是 它 应 具有 的 两 倍 。 这 只 是 在 期 望 的 深度 上 加 了 一 个 小 常数 。 注 意 , 通过 使 用 一 棵 平衡 
树 , 可 以 把 这 个 界 变 成 最 坏 情形 的 界 ; 这 将 防止 出 现 坏 的 插入 序列 。 

使 用 查找 树 可 能 有 些 过 分 , 因为 它 支 持 许 许 多 多 并 不 需要 的 操作 。 我 们 将 要 使 用 的 基本 的 
数据 结构 不 需要 链 , 它 以 最 坏 情 形 时间 O(log N) 支 持 上 述 两 种 操作 。 插 入 操作 实际 上 将 花费 常 
数 平均 时 间 , 车 无 删 除 操作 的 干扰 ,该 结构 的 实现 将 以 线性 时 间 建 立 一 个 具有 VN 项 的 优先 队 
列 。 然 后 , 我 们 将 讨论 如 何 实现 优先 队列 以 支持 有 效 的 合并 。 这 个 附加 的 操作 似乎 有 些 复杂 ， 
它 显然 需要 使 用 链接 的 结构 。 


6.3 IZNI 


我 们 将 要 使 用 的 这 种 工具 叫 作 二 叉 堆 (binary heap), 它 的 使 用 对 于 优先 队列 的 实现 相当 普 
iid, 以 至 于 当 堆 (heap) 这 个 词 不 加 修饰 地 用 在 优先 队列 的 上 下 文中 时 , 一 般 都 是 指数 据 结 构 的 
这 种 实现 。 在 本 节 , 我 们 把 二 叉 堆 只 叫 作 堆 。 
像 二 又 查找 树 一 样 , 堆 也 有 两 个 性 质 , 即 结构 性 
和 堆 序 性 。 恰 似 AVL 树 , 对 堆 的 一 次 操作 可 能 
破坏 这 两 个 性 质 中 的 一 个 , 因此 , 堆 的 操作 必 
须 到 堆 的 所 有 性 质 都 被 满足 时 才能 终止 。 事 实 
上 这 并 不 难 做 到 。 
6.3.1 结构 性 质 

堆 是 一 棵 被 完全 填 满 的 二 又 树 , 有 可 能 的 
例外 是 在 底层 , 底层 上 的 元 素 从 左 到 右 填 人 。 
这 样 的 树 称 为 完全 二 叉 树 (complete binary paar 
tee) 。 图 6-2 给 出 了 一 个 例子 。 MUS eee 

容易 证 明 , 一 棵 高 为 4 的 完全 二 叉 树 有 2" 到 2…… -1 个 节点 。 这 意味 着 完全 二 又 树 的 高 是 
Llog NJ, 显然 它 是 O(log N) 。 

一 个 重要 的 观察 发 现 , 因为 完全 二 又 树 这 么 有 规律 , 所 以 它 可 以 用 一 个 数组 表示 而 不 需要 
使 用 链 。 图 6-3 中 的 数组 对 应 图 6-2 中 的 堆 。 


和 








图 6-3 完全 二 叉 树 的 数组 实现 


对 于 数组 中 任 一 位 置 i 上 的 元 素 , 其 左 儿 子 在 位 置 2 E, 右 儿子 在 左 儿子 后 的 单元 (2i+1) 
P, 它 的 父亲 则 在 位 置 Li/2 J 上 。 因 此 , 这 里 不 仅 不 需要 链 , 而 且 遍 历 该 树 所 需要 的 操作 极 简 单 ， 
在 大 部 分 计算 机 上 运行 很 可 能 非常 快 。 这 种 实现 方法 的 唯一 问题 在 于 , 最 大 的 堆 大 小 需要 事先 
估计 , 但 一 般 这 并 不 成 问题 (而 且 如 果 需 要 ,我 们 可 以 重新 调整 大 小 )。 在 图 6-3 中 , 堆 大 小 的 
限界 是 13 个 元 素 。 该 数组 有 一 个 位 置 0, 后 面 将 详细 叙述 。 

因此 , 一 个 堆 结 构 将 由 一 个 (Comparable 对 象 的 ) 数 组 和 一 个 代表 当前 堆 的 大 小 的 整数 组 
成 。 图 6-4 显示 一 个 优先 队列 的 架构 。 

本 章 我 们 将 始终 把 堆 画 成 树 , 这 意味 着 具体 的 实现 将 使 用 简单 的 数组 。 
6.3.2 堆 序 性 质 

让 操作 快速 执行 的 性 质 是 堆 序 性 质 ( heap- order property) 。 由 于 我 们 想 要 快速 找 出 最 小 元 ， 
因此 最 小 元 应 该 在 根 上 。 如 果 我 们 考虑 任意 子 树 也 应 该 是 一 个 堆 , 那么 任意 节点 就 应 该 小 于 它 
的 所 有 后 裔 。 
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public class BinaryHeap<AnyType extends Comparable<? super AnyType>> 


{ 





1 
2 
3 public BinaryHeap( ) 

E ( /* See online code «/ } 
5 public BinaryHeap( int capacity ) 
6 

7 

8 







( /* See online code «/ } 
public BinaryHeap( AnyType [ ] items ) 
{ /* 







Figure 6.14 «/ } 










public void insert( AnyType x ) 
11 { /* Figure 6.8 «/ } 

























12 public AnyType findMin( ) 
13 { /* See online code */ } 
14 public AnyType deleteMin( ) 
15 { /* Figure 6.12 */ ) 
16 public boolean isEmpty( ) 
17 { /* See online code */ } 
18 public void makeEmpty( ) 
19 { /* See online code */ } 
20 
21 private static final int DEFAULT CAPACITY = 10; 
22 
23 private int currentSize; // Number of elements in heap 
24 private AnyType [ ] array;  // The heap array 
25 
26 private void percolateDown( int hole ) 
27 { /* Figure 6.12 */ ) 
28 private void buildHeap( ) 
29 { /* Figure 6.14 */ } 
30 private void enlargeArray( int newSize ) 
{ /* See online code */ } 









图 6-4 优先 队列 的 类 架构 


应 用 这 个 逻辑 , 我 们 得 到 堆 序 性 质 。 在 一 个 堆 中 , 对 于 每 一 个 节点 X, X 的 父亲 中 的 关键 字 
小 于 (或 等 于 )X 中 的 关键 字 , 根 节点 除外 ( 它 没有 父亲 )”。 在 图 6-5 中 左边 的 树 是 一 个 堆 ， 而 
右边 的 树 则 不 是 (虚线 表示 堆 有 序 性 被 破坏 ) 。 





图 6-5 两 棵 完全 树 ( 只 有 左边 的 树 是 堆 ) 


根据 堆 序 性 质 , 最 小 元 总 可 以 在 根 处 找到 。 因 此 , 我 们 以 常数 时 间 得 到 附加 操作 findMin。 
6. 3.3 基本 的 堆 操作 
无 论 从 概念 上 还 是 实际 上 考虑 , 执行 这 两 个 所 要 求 的 操作 都 是 容易 的 。 所 有 的 工作 都 需要 





O 类 似 地 , 我 们 可 以 声明 一 个 (max) 堆 , 它 使 我 们 通过 改变 堆 序 性 质 能 够 有 效 地 找 出 和 删除 最 大 元 。 因 此 , 优 
先 队列 可 以 用 来 找 出 最 大 元 或 最 小 元 , 但 这 需要 提前 决定 。 
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保证 始终 保持 堆 序 性 质 。 
insert (插入 ) 
为 将 一 个 元 素 站 插入 到 堆 中 , 我 们 在 下 一 个 可 用 位 置 创建 一 个 空 穴 , 否则 该 堆 将 不 是 完全 树 。 
如 果 革 可 以 放 在 该 空 穴 中 而 并 不 破坏 堆 的 序 , 那么 插入 完成 。 否 则 ,我 们 把 空 穴 的 父 节 点 上 的 元 
素 移 人 该 空 穴 中 , 这 样 , 空 穴 就 朝 着 根 的 方向 上 冒 一 步 。 继 续 该 过 程 直 到 式 能 被 放 人 空 穴 中 为 止 。 
如 图 6-6 所 示 , 为 了 插入 14, 我 们 在 堆 的 下 一 个 可 用 位 置 建立 一 个 空余 。 由 于 将 14 插入 空 穴 破坏 1 
了 堆 序 性 质 , 因此 将 31 移入 该 空 穴 。 在 图 6-7 中 继续 这 种 策略 ， 直 到 找 出 置 人 14 的 正确 位 置 。 229 








— & Ww 
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图 6-7 将 14 插 入 到 前 面 的 堆 中 的 其 余 两 步 


这 种 一 般 的 策略 叫 作 上 滤 ( percolate up) ; 新 元 素 在 堆 中 上 滤 直 到 找 出 正确 的 位 置 。 使 用 
图 6-8 所 示 的 代码 很 容易 实现 插入 。 


* Insert into the priority queue, maintaining heap order. 
* Duplicates are allowed. 

* (param x the item to insert. 

x/ 
public void insert( AnyType x ) 
{ 

if( currentSize == array.length - 1 ) 
enlargeArray( array.length * 2 + 1 ); 


// Percolate up 

int hole = ++currentSize; 

for( array[ 0 ] = x; x.compareTo( array[ hole / 2] ) < 0; hole /= 2 ) 
array[ hole ] = array[ hole / 2 ]; 

array[ hole ] = x; 





6-8 插入 到 一 个 二 叉 堆 的 过 程 


其 实 我 们 本 可 以 使 用 insert 例 程 通过 反复 执行 交换 操作 直至 建立 正确 的 序 来 实现 上 滤 过 
FE, 可 是 一 次 交换 需要 3 条 赋值 语句 。 如 果 一 个 元 素 上 滤 d 层 , 那么 由 于 交换 而 执行 的 赋值 次 
数 就 达到 3d, 而 我 们 这 里 的 方法 却 只 用 到 d + 1 次 赋值 。 
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如 果 要 插入 的 元 素 是 新 的 最 小 值 , 那么 它 将 一 直 被 推 向 顶端 。 这 样 在 某 一 时 刻 hole 将 是 
1, 并 且 需 要 程序 跳出 循环 。 当 然 我 们 可 以 用 显 式 的 测试 做 到 这 一 点 , 或 者 把 对 被 插入 项 的 引用 
放 到 位 置 0 处 使 循环 终止 。 我 们 选择 显 式 的 方式 来 完成 插入 的 实现 。 

如 果 和 欲 插入 的 元 素 是 新 的 最 小 元 从 而 一 直上 滤 到 根 处 , 那么 这 种 插入 的 时 间 将 长 达 O(log 
N) 。 平 均 看 来 , 上 滤 终 止 得 要 早 ; 业已 证 明 , 执行 一 次 插入 平均 需要 2.607 次 比较 , 因此 平均 
insert 操作 上 移 元 素 1. 607 层 。 

deleteMin( 删除 最 小 元 ) 

deleteMin 以 类 似 于 插入 的 方式 处 理 。 找 出 最 小 元 是 容易 的 ， 困难 之 处 是 删除 它 。 当 删 
除 一 个 最 小 元 时 , 要 在 根 节点 建立 一 个 空 穴 。 由 于 现在 堆 少 了 一 个 元 素 , 因此 堆 中 最 后 一 个 元 
素 工 必须 移动 到 该 堆 的 某 个 地 方 。 如 果 式 可 以 被 放 到 空 穴 中, 那么 deleteMin 完成 。 不 过 这 
一 般 不 太 可 能 , 因此 我 们 将 空 穴 的 两 个 儿子 中 较 小 者 移入 空 穴 , 这 样 就 把 空 穴 向 下 推 了 一 层 。 
重复 该 步骤 直到 可 以 被 放 入 空 穴 中 。 因 此 , 我 们 的 做 法 是 将 X 置 人 沿 着 从 根 开始 包含 最 小 儿 
子 的 一 条 路 径 上 的 一 个 正确 的 位 置 。 

图 6-9 中 左 图 显示 了 deleteMin 之 前 的 堆 。 删 除 13 后 , 我 们 必须 试图 正确 地 将 31 JC BE 
中 。31 不 能 放 在 空 穴 中, 因为 这 将 破坏 堆 序 性 质 。 于 是 , 我 们 把 较 小 的 儿子 14 BASK, 同时 
空 穴 下 滑 一 层 ( 见 图 6-10) 。 重 复 该 过 程 , 由 于 31 大 于 19, 因此 把 19 置 人 空 穴 , 在 更 下 一 层 上 
建立 一 个 新 的 空 穴 。 然 后 , 由 于 31 还 是 太 大 ， 因 此 再 把 26 置 入 空 穴 , 在 底层 又 建立 一 个 新 的 
空 穴 。 最 后 , 我 们 得 以 将 31 置 入 空 穴 中 (图 6-11) 。 这 种 一 般 的 策略 叫 作 下 滤 (percolate down) 。 
在 其 实现 例 程 中 我 们 使 用 类 似 于 在 insert 例 程 中 用 过 的 技巧 来 避免 进行 交换 操作 。 
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图 6-9 在 根 处 建立 空 穴 
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图 6-10 % deleteMin 中 的 接 下 来 的 两 步 
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图 6-11 Æ deleteMin 中 的 最 后 两 步 
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在 堆 的 实现 中 经 常 发 生 的 错误 是 当 堆 中 存在 偶数 个 元 素 的 时 候 , 将 遇 到 一 个 节点 只 有 一 
个 儿子 的 情况 。 我 们 必须 保证 节点 不 总 有 两 个 儿子 的 前 提 , 因此 这 就 涉及 一 个 附加 的 测试 。 
在 图 6-12 描述 的 程序 中 , 我 们 已 在 第 29 行进 行 了 这 种 测试 。 一 种 极其 巧妙 的 解决 方法 是 始 
终 保 证 算法 把 每 一 个 节点 都 看 成 有 两 个 儿子 。 为 了 实施 这 种 解法 ; 当 堆 的 大 小 为 偶数 时 在 每 
个 下 滤 开 始 处 , 可 将 其 值 大 于 堆 中 任何 元 素 的 标记 放 到 堆 的 终端 后 面 的 位 置 上 。 我 们 必须 在 
深思 熟 虑 以 后 再 这 么 做 , 而且 必须 插入 一 个 是 否 确实 使 用 这 种 技巧 的 评判 。 虽 然 这 不 再 需要 
测试 右 儿子 的 存在 性 , 但 是 还 是 需要 测试 何 时 到 达 底 层 , 因为 对 每 一 片 树叶 算法 将 需要 一 个 
标记 。 


[** - 

* Remove the smallest item from the priority queue. 

* (return the smallest item, or throw UnderflowException, if empty. 
*/ 

public AnyType deleteMin( ) 

{ 

if( isEmpty( ) ) 
throw new UnderflowException( ); 


— 
GeO aon aU AW hh — 


AnyType minItem = findMin( ); 
array[ 1 ] = array[ currentSize-- ]; 
percolateDown( 1 ); 


= 
— 


return minItem; 


/** 
* Internal method to percolate down in the heap. 
* @param hole the index at which the percolate begins. 
«/ 
private void percolateDown( int hole ) 
{ 
int child; 
AnyType tmp = array[ hole ]; 
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for( ; hole * 2 <= currentSize; hole = child ) 


{ 
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child = hole * 2; 
if( child != currentSize && 
array[ child + 1 ].compareTo( array[ child] ) <0 ) 
child++; 
if( array[ child ].compareTo( tmp ) < 0 ) 
array[ hole ] = array[ child ]; 
else 
break; 
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} 
array[ hole ] = tmp; 
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6-12. 在 二 又 堆 中 执行 deleteMin 的 方法 
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这 种 操作 最 坏 情 形 运行 时 间 为 Oog N) 。 平 均 而 言 , 被 放 到 根 处 的 元 素 几乎 下 滤 到 堆 的 底 
层 ( 即 它 所 来 自 的 那 层 ) ,因此 平均 运行 时 间 为 0(log N). 
6.3.4 其 他 的 堆 操 作 

注意 ,虽然 求 最 小 值 操作 可 以 在 常数 时 间 完 成 , 但 是 , 按照 求 最 小 元 设计 的 堆 ( 也 称 作 最 小 
ME, (min) heap ) 在 求 最 大 元 方面 却 无 任何 帮助 。 事 实 上 , 一 个 堆 所 蕴涵 的 序 信息 很 少 , 因此 ， 
若 不 对 整个 堆 进行 线性 搜索 , 是 没有 办 法 找 出 任何 特定 的 关键 字 的 。 为 说 明 这 一 点 , 考虑 图 6-13 
所 示 的 大 型 堆 结构 (具体 元 素 没有 标 出 ), 我 们 在 这 里 看 到 , 关于 最 大 值 的 元 素 所 知道 的 唯一 信 
息 是 : 该 元 素 在 树叶 上 。 但 是 , 半数 的 元 素 位 于 树叶 上 , 因此 该 信息 是 没什么 价值 的 。 由 于 这 
个 原因 , 如果 重要 的 是 要 知道 元 素 都 在 什么 地 方 , 那么 除 堆 之 外 , 还 必须 用 到 诸如 散 列 表 等 某 
些 其 他 数据 结构 ( 回忆: 该 模型 并 不 允许 查看 堆 内 部 ) 。 





图 6-13 ”一 棵 巨大 的 完全 二 又 树 


如 果 我 们 假设 通过 某 种 其 他 方法 得 知 每 一 个 元 素 的 位 置 , 那么 就 有 几 种 其 他 操作 的 开销 变 
小 。 下 述 前 三 种 操作 均 以 对 数 最 坏 情形 时 间 运 行 。 

decreaseKey ( 降低 关键 字 的 值 ) 

decreaseKey(p, A) 操 作 降低 在 位 置 o 处 的 项 的 值 , 降 值 的 幅度 为 正 的 量 A。 由 于 这 可 
能 破坏 堆 序 性 质 , 因此 必须 通过 上 小 对 堆 进 行 调整 。 该 操作 对 系统 管理 员 是 有 用 的 : 系统 管理 
员 能 够 使 他 们 的 程序 以 最 高 的 优先 级 来 运行 。 

increaseKey (增加 关键 字 的 值 ) 

increaseKey(p, A) PRESE Im TE [RE o 处 的 项 的 值 , 增值 的 幅度 为 正 的 量 A。 这 可 以 用 
下 滤 来 完成 。 许 多 调度 程序 自动 地 降低 正在 过 多 地 消耗 CPU 时 间 的 进程 的 优先 级 。 

delete( MR) 

daelete(D) 操 作 删 除 堆 中 位 置 p 上 的 节点 。 该 操作 通过 首先 执行 decreaseKey(p, œ) 
然后 再 执行 deleteMin( ) 来 完成 。 当 一 个 进程 被 用 户 中 止 ( 而 不 是 正常 终止 ) 时 , 它 必须 从 优 
先 队 列 中 除去 。 

buildHeap (构建 堆 ) 

有 时 二 又 堆 是 由 一 些 项 的 初始 集合 构造 而 得 。 这 种 构造 方法 以 IN 项 作为 输入 , 并 把 它们 放 到 
一 个 堆 中 。 显 然 , 这 可 以 使 用 NN 个 相继 的 insert 操作 来 完成 。 由 于 每 个 insert 将 花费 0(1) 
平均 时 间 以 及 0(log N) 的 最 坏 情形 时 间 , 因此 该 算法 的 总 的 运行 时 间 是 0(N) 平 均 时 间 而 不 是 
O(N log 和 N) 最 坏 情形 时 间 。 由 于 这 是 一 种 特殊 的 指令 , 没有 其 他 操作 干扰 , 而 且 我 们 已 经 知道 该 
指令 能 够 以 线性 平均 时 间 来 执行 , 因此 , 期 望 能 够 保证 线性 时 间 界 的 考虑 是 合乎 情理 的 。 

一 般 的 算法 是 将 N 项 以 任意 顺序 放 入 树 中 , 保持 结构 特性 。 此 时 , 如 果 percolateDown(i) 
从 节点 i 下 滤 , 那么 图 6-14 中 的 buildHeap 程序 则 可 以 由 构造 方法 用 于 创建 一 棵 堆 序 的 树 
(heap-ordered tree) 。 
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/** 
* Construct the binary heap given an array of items. 
x/ 
public BinaryHeap( AnyType [ ] items ) 
{ 
currentSize = items.length; 
array = (AnyType[]) new Comparable[ ( currentSize + 2 ) * 11 / 10 ]; 


ANDY AWH He 


int i = 1; 

for( AnyType item : items ) 
array[ i++ ] = item; 

buildHeap( ); 


| ** 
* Establish heap order property from an arbitrary 
* arrangement of items. Runs in linear time. 
*/ 
private void buildHeap( ) 
{ 
for( int i = currentSize / 2; i > 0; i-- ) 
percolateDown( i ); 





图 6-14 buildHeap 的 架构 


图 6-15 中 的 第 一 棵 树 是 无 序 树 。 从 图 6- 15 到 图 6- 18 中 其 余 7 棵 树 表示 出 7 个 
percolateDown 中 每 一 个 的 执行 结果 。 每 条 虚线 对 应 两 次 比较 : 一 次 是 找 出 较 小 的 儿子 节点 ， 
男 一 个 是 较 小 的 儿子 与 该 节点 的 比较 。 注 意 , 在 整个 算法 中 只 有 10 条 虚线 ( 可 能 已 经 存在 第 11 
条 一 一 在 哪里 ?) , 它们 对 应 20 次 比较 。 

为 了 确定 buildHeap 的 运行 时 间 的 界 , 我 们 必须 确定 虚线 的 条 数 的 界 。 这 可 以 通过 计算 堆 
中 所 有 节点 的 高 度 的 和 来 得 到 它 是 虚线 的 最 大 条 数 。 现 在 我 们 想 要 说 明 的 是 : 该 和 为 0(N)。 





图 6-15 AE: 初始 堆 ; A: 在 percolateDown(7) 后 





图 6-16 左 : 在 bercolateDown(6) 后 ; H: E percolateDown(5)/q 
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fl 6-18 Æ: 在 percolateDown(2) 后 ; fi: YE percolateDown(1) JG 


定理 6. 1 包含 2… -1 个 节点 、 高 为 h 的 理想 二 又 树 (perfect binary tree) 的 节点 的 高 度 的 和 
3;2^' ~(h 1), 

WERA: 

容易 看 出 , 该 树 由 高 度 h 上 的 1 个 节点 、 高度 h-1 上 的 2 个 节点 、 高 度 h-2 上 的 2 个 节 
点 以 及 一 般 地 在 高 度 h -i 上 的 2 个 节点 等 组 成 。 则 所 有 节点 的 高 度 的 和 为 


Sz Xro-o0 =h+2(h-1) +4(h-2) +8(h-3) «16(h -4) & 2" (1) (6.1) 


两 边 乘 以 2 得 到 方程 
28 -2h «A(h -1) +8(h-2) +16(h-3) += +2"(1) (6.2) 
将 这 两 个 方程 相 减 得 到 方程 (6.3) 。 我 们 发 现 , 非常 数 项 差不多 都 消去 了 , 例如 , 2h -2(h -1) = 
2, 4(h-1) -4(h -2) =4， 等 等 。 方 程 (6.2) 的 最 后 一 项 2 在 方程 (6. 1) 中 不 出 现 ; 因此 , 它 出 
现在 方程 (6.3) 中 。 方程 (6.1) 中 的 第 一 项 在 方程 (6.2) 中 不 出 现 ; RA, -h 出 现在 方程 
(6.3) Ho 我 们 得 到 
Sz-h«244484-42*"! 4,2! 2 (2*! -1) - (h 41) es 
该 定理 得 证 。 
一 棵 完全 树 不 是 理想 二 又 树 , 但 我 们 得 到 的 结果 却 是 一 棵 完全 树 的 节点 高 度 的 和 的 上 界 。 
于 一 棵 完全 树 节点 数 在 2 和 2 ”之 间 , 因此 该 定理 意味 着 这 个 和 是 ON), 其 中 N 是 节点 的 个 数 。 
虽然 我 们 得 到 的 结果 对 证 明 buildHeap 是 线性 的 而 言 是 充分 的 , 但 是 高 度 的 和 的 界 却 不 
是 尽 可 能 的 强 。 对 于 具有 N =2 个 节点 的 完全 树 , 我 们 得 到 的 界 大 致 是 2V。 由 归纳 法 可 以 证 
明 , 高 度 的 和 是 N-b(N), 其 中 5b(N) 是 在 NN 的 二 进 制 表示 法 中 1 的 个 数 。 


6.4 优先 队列 的 应 用 


我 们 已 经 提 到 优先 队列 如 何在 操作 系统 的 设计 中 应 用 。 在 第 9 章 , 我 们 将 看 到 优先 队列 如 何 
在 有 效 地 实现 几 个 图 论 算法 中 应 用 。 此 处 , 我 们 将 介绍 如 何 应 用 优先 队列 来 得 到 两 个 问题 的 解答 。 
6. 4.1 选择 问题 

我 们 将 要 考察 的 第 一 个 问题 是 来 自 第 1 章 的 选择 问题 (selection problem) 。 回 忆 当 时 的 输入 是 N 
个 元 素 以 及 一 个 整数 k, 这 N 个 元 素 的 集 可 以 是 全 序 集 。 该 选择 问题 是 要 找 出 第 上 个 最 大 的 元 素 。 

在 第 1 章 中 给 出 了 两 个 算法 , 但 是 它们 都 不 是 很 有 效 的 算法 。 第 一 个 算法 我 们 称 为 1A, 是 
把 这 些 元 素 读 人 数组 并 将 它们 排序 , 返回 适当 的 元 素 。 假 设 使 用 的 是 简单 的 排序 算法 , 则 运行 
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时 间 为 O(CN ) 。 另 一 个 算法 叫 作 IB, 是 将 大 个 元 素 读 和 人 一 个 数组 并 将 它们 排序 。 这 些 元 素 中 的 
最 小 者 在 第 个 位 置 上 。 我 们 一 个 一 个 地 处 理 其 余 的 元 素 。 当 一 个 元 素 开 始 被 处 理 时 , 它 先 与 
数组 中 第 上 个 元 素 比较 , 如 果 该 元 素 大 , 那么 将 第 个 元 素 除去 , 而 这 个 新 元 素 则 被 放 在 其 余 
k - 1 个 元 素 中 正确 的 位 置 上 。 当 算法 结束 时 , 第 个 位 置 上 的 元 素 就 是 问题 的 解答 。 该 方法 的 
运行 时 间 为 O(N k) (为 什么 ?) 。 如 果 上 大 =「 N/2 1, BAR PPP EAB O(N), TERR, 对 于 任 
WA k, 我 们 可 以 求解 对 称 的 问题 : 找 出 第 (Nk+1) 个 最 小 的 元 素 , 从 而 k=[ NM2 实际 上 是 这 
两 个 算法 的 最 困难 的 情况 。 这 刚好 也 是 最 有 趣 的 情形 ,因为 的 这 个 值 称 为 中 位 数 (median) 。 

我 们 在 这 里 给 出 两 个 算法 , E k ST NZ2 | 的 极端 情形 它们 均 以 0(N log N) 运 行 , 这 是 明显 的 
改进 。 

算法 6A à 

为 了 简单 起 见 , 假设 我 们 只 考虑 找 出 第 个 最 小 的 元 素 。 该 算法 很 简单 。 我 们 将 个 元 素 
读 入 一 个 数组 。 然 后 对 该 数组 应 用 buildHeap 算法 。 最 后 , 执行 上 次 deleteMin HF. MK 
堆 最 后 提取 的 元 素 就 是 我 们 的 答案 。 显 然 ， 只 要 改变 堆 序 性 质 , 就 可 以 求解 原始 的 问题 ; 找 出 
第 个 最 大 的 元 素 。 l 

这 个 算法 的 正确 性 应 该 是 显然 的 。 如 果 使 用 builgHeap, 则 构造 堆 的 最 坏 情形 用 时 OCN) , 
而 每 次 deleteMin 用 时 O(log N), FAFA kK deleteMin, 因此 我 们 得 到 总 的 运行 时 间 为 
O(N +k log N) , WIR k- O(N/log N) ,那么 运行 时 间 取决 于 buildHeap 操作 , B 0(N)。 对 
于 大 的 上 值 , 运行 时 间 为 OCk log N) 。 如 果 上 = 上 N/2 1, 那么 运行 时 间 为 O(N log N)。 

TER, 如 果 我 们 对 k=NN 运行 该 程序 并 在 元 素 离开 堆 时 记录 它们 的 值 , 那么 实际 上 已 经 对 输 
入 文件 以 时 间 OCN log N) 做 了 排序 。 在 第 7 BE, 我 们 将 细 化 该 想法 , 得 到 一 种 快速 的 排序 算法 ， 
叫 作 堆 排序 ( heapsort) 。 

算法 6B 

关于 第 2 个 算法 , 我 们 回 到 原始 问题 , 找 出 第 个 最 大 的 元 素 。 我 们 使 用 算法 1B 的 思路 。 
在 任 一 时 刻 我 们 都 将 维持 个 最 大 元 素 的 集合 S。 在 前 下 个 元 素 读 和 人 以 后 ， 当 再 读 人 一 个 新 的 
元 素 时 , 该 元 素 将 与 第 上 个 最 大 元 素 进 行 比较 , 记 这 第 个 最 大 的 元 素 为 So EE, S, 是 S 中 
最 小 的 元 素 。 如 果 新 的 元 素 更 大 , 那么 用 新 元 素 代替 S 中 的 5;。 此 时 , 5 将 有 一 个 新 的 最 小 元 
X, 它 可 能 是 新 添加 进来 的 元 素 , 也 可 能 不 是 。 在 输入 终了 时 , 我 们 找到 5 中 的 最 小 的 元 素 , 将 
其 返回 , 它 就 是 答案 。 

这 基本 上 与 第 1 章 中 描述 的 算法 相同 。 不 过 , 这 里 我 们 使 用 一 个 堆 来 实现 $S。 前 有 个 元 素 
通过 调用 一 次 buildHeap 以 总 时 间 0(k) 被 置 人 堆 中 。 处 理 每 个 其 余 的 元 素 的 时 间 为 0(1)， 
用 于 检测 是 否 元 素 进入 5, 再 加 上 时 间 O(log k), 用 于 在 必要 时 删除 S, 并 插入 新 元 素 。 因 此 ， 
总 的 时 间 是 OC k + (N — k)log k) = O(N log 有 )。 该 算法 也 给 出 找 出 中 位 数 的 时 间 界 OCN log N)。 

在 第 7 章 , 我 们 将 看 到 如 何以 平均 时 间 O(N) 解决 这 个 问题 。 在 第 10 3€, 我 们 将 看 到 一 个 
以 0(N) 最 坏 情形 时 间 求 解 该 问题 的 算法 , 虽然 不 实用 但 却 很 精妙 。 

6.4.2 事件 模拟 

在 3.7.3 节 我 们 描述 了 一 个 重要 的 排队 问题 。 在 那里 我 们 有 一 个 系统 ， 比 如 银行 , 顾客 们 
到 达 并 排队 等 待 直到 此 个 出 纳 员 有 一 个 腾 出 手 来 。 顾 客 的 到 达 情 况 由 概率 分 布 函 数控 制 , 服务 
时 间 ( 一 旦 出 纳 员 腾 出 时 间 用 于 服务 的 时 间 量 ) 也 是 如 此 。 我 们 的 兴趣 在 于 一 位 顾客 平均 必须 
要 等 多 久 或 所 排 的 队伍 可 能 有 多 长 这 类 统计 问题 。 

对 于 某 些 概率 分 布 以 及 上 的 一 些 值 , 答案 都 可 以 精确 地 计算 出 来 。 然 而 随 着 大 的 增 大 ,分 
析 明 显 地 变 得 困难 , 因此 使 用 计算 机 模拟 银行 的 运作 很 有 吸引 力 。 用 这 种 方法 ,银行 管理 人 员 
可 以 确定 为 保证 合理 、 通 畅 的 服务 需要 多 少 出 纳 员 。 

模拟 由 处 理 中 的 事件 组 成 。 这 里 的 两 个 事件 是 (a) 一 位 顾客 到 达 ， 和 (b) 一 位 顾客 离 去 ,从 
而 腾 出 一 名 出 纳 员 。 
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我 们 可 以 使 用 概率 函数 来 生成 一 个 输入 流 , 它 由 每 位 顾客 的 到 达 时 间 和 服务 时 间 的 序 偶 组 
R, 并 按 到 达 时 间 排 序 。 我 们 不 必 使 用 一 天 中 的 准确 时 间 , 而 是 使 用 一 份 单位 时 间 量 ， 称 之 为 
一 个 滴答 (tick)。 

进行 这 种 模拟 的 一 种 方法 是 启动 处 在 0 滴答 处 的 一 台 模 拟 钟 表 。 我 们 让 钟表 一 次 走 一 个 滴 
E, 同时 查看 是 否 有 事件 发 生 。 如 果 有 , 就 处 理 这 个 ( 些 ) 事 件 , 搜集 统计 资料 。 当 没有 顾客 留 
在 输入 流 且 所 有 的 出 纳 员 都 空闲 的 时 候 , 模拟 结束 。 

这 种 模拟 策略 的 问题 是 , 它 的 运行 时 间 不 依赖 顾客 数 或 事件 数 ( 每 位 顾客 有 两 个 事件 ), 但 
是 却 依赖 滴答 数 , 而 后 者 实际 又 不 是 输入 的 一 部 分 。 为 了 看 清 为 什么 问题 在 于 此 , 假设 将 钟表 
的 单位 改 成 毫 ( 千 分 之 一 ) 滴 答 (millitick ) 并 将 输入 中 的 所 有 时 间 乘 以 1000, 则 结果 将 是 : 模拟 
用 时 长 1000 倍 ! 

避免 这 种 问题 的 关键 是 在 每 一 个 阶段 让 钟表 直接 走 到 下 一 个 事件 时 间 。 从 概念 上 看 这 是 容 
易 做 到 的 。 在 任 一 时 刻 , 可 能 出 现 的 下 一 事件 要 么 是 (a) 在 输入 文件 中 下 一 顾客 的 到 达 , 要 么 
是 (b) 在 一 名 出 纳 员 处 一 位 顾客 离开 。 由 于 事件 将 要 发 生 的 所 有 的 时 间 都 是 可 以 达到 的 , 因此 
我 们 只 需 找 出 在 最 近 的 将 来 发 生 的 事件 并 处 理 这 个 事件 。 

如 果 事 件 是 离开 , 那么 处 理 过 程 包括 搜集 离开 的 顾客 的 统计 资料 以 及 检验 队伍 (队列 ) 看 是 
否 还 有 男 外 的 顾客 在 等 待 。 如 果 有 , 那么 我 们 加 上 这 位 顾客 , 处 理 需 要 的 统计 资料 , 计算 顾客 
将 要 离开 的 时 间 , 并 将 离开 加 到 等 待 发 生 的 事件 集中 去 。 

如 果 事 件 是 到 达 , 则 检查 处 于 空闲 的 出 纳 员 。 如 果 没 有 , 就 把 该 到 达 放 到 队伍 (队列 ) 中 去 ; 
否则 , 我 们 分 配 顾客 一 个 出 纳 员 , 计算 顾客 的 离开 时 间 , 并 将 离开 加 到 等 待 发 生 的 事件 集中 去 。 

顾客 在 等 待 的 队伍 可 以 实现 为 一 个 队列 。 由 于 我 们 需要 找到 最 近 的 将 来 发 生 的 事件 , 因此 
合适 的 办 法 是 将 等 待 发 生 的 离开 的 集合 编 人 一 个 优先 队列 中 。 下 一 事件 是 下 一 个 到 达 或 下 一 个 
离开 (哪个 先 发 生 就 是 哪个 ) ; 它们 都 容易 达到 。 

现在 就 可 以 为 模拟 编写 例 程 了 ,虽然 很 可 能 耗费 时 间 。 如 果 有 C 个 顾客 (因此 有 2€ 个 事 
件 ) 和 此 个 出 纳 员 , 那么 模拟 的 运行 时 间 将 会 是 0(C log(k +1) ) ,因为 计算 和 处 理 每 个 事件 花 
#O(log H), FEP H=k+1 WHEN KAS. 


6.5 d- 堆 


二 叉 堆 是 如 此 简单 ,以 至 于 它们 几乎 总 是 用 在 需要 优先 队列 的 时 候 。d- 堆 是 二 叉 堆 的 简单 
HE, 它 就 像 一 个 二 又 堆 , 只 是 所 有 的 节点 都 有 d 个 儿子 ( 因此, 二 又 堆 是 2- 堆 )。 

图 6-19 表示 的 是 一 个 3- 堆 。 注 意 , d- 堆 要 比 二 又 堆 浅 得 多 , 它 将 insert 操作 的 运行 时 间 
改进 为 O(log, N)。 然 而 , 对 于 大 的 d, deleteMin 操作 费时 得 多 , 因为 虽然 树 是 浅 了 , 但 是 4 
个 儿子 中 的 最 小 者 是 必须 要 找 出 的 , 如 使 用 标准 的 算法 , 这 会 花费 d -1 次 比较 , 于 是 将 操作 的 
用 时 提高 到 O(d log, N) WR d 是 常数 , 那么 当然 两 个 的 运行 时 间 都 是 0(log N) 。 虽 然 仍然 可 
以 使 用 一 个 数组 , 但 是 , 现在 找 出 儿子 和 父亲 的 乘法 和 除法 都 有 个 因子 d, 除非 4 是 2 BUE, 8 
则 将 会 大 大 增加 运行 时 间 , 因为 我 们 不 能 再 通过 移 一 个 二 进 制 位 来 实现 除法 了 。d- 堆 在 理论 上 
RAR, 因为 存在 许多 算法 , 其 插入 次 数 比 deleteMin 的 次 数 多 得 多 ( 因此 理论 上 的 加 速 是 可 
能 的 ) 。 当 优先 队列 太 大 而 不 能 完全 装 和 人 主 存 的 时 候 , d- 堆 也 是 很 有 用 的 。 在 这 种 情况 下 , d- 堆 
能 够 以 与 B 树 大 致 相同 的 方式 发 挥 作 用 。 最 后 , 有 证 据 显示 , 在 实践 中 4- 堆 可 以 胜 过 二 又 堆 。 

除 不 能 实施 fina 外 , 堆 实 现 的 最 明显 的 缺点 是 : 将 两 个 堆 合并 成 一 个 堆 是 困难 的 操作 。 
这 种 附加 的 操作 叫 作 合并 (merge) 。 存 在 许多 实现 堆 的 方法 使 得 一 次 merge 操作 的 运行 时 间 是 
O(log N) 。 现 在 我 们 就 来 讨论 三 种 复杂 程度 不 一 的 数据 结构 ,它们 都 有 效 地 支持 merge 操作 。 我 
们 将 把 复杂 的 分 析 推 迟到 第 11 章 讨论 。 


O FRA OCC log(k +1) ) ASFA OCC log 上 以 避免 上 =1 情形 的 混乱 。 
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6.6 ÆR 


设计 一 种 堆 结构 像 二 叉 堆 那 样 有 效 地 支持 合并 操作 ( 即 以 oCN) 时 间 处 理 一 个 merge) mi H. 
只 使 用 一 个 数组 似乎 很 困难 。 原 因 在 于 , 合并 似乎 需要 把 一 个 数组 拷贝 到 另 一 个 数组 中 去 , 对 
于 相同 大 小 的 堆 这 将 花费 时 间 CN) 。 正 因为 如 此 , 所 有 支持 有 效 合并 的 高 级 数据 结构 都 需要 
使 用 链 式 数据 结构 。 实 践 中 , 我 们 预计 这 将 可 能 使 得 所 有 其 他 操作 变 慢 。 

左 式 堆 (leftist heap ) 像 二 叉 堆 那样 也 具有 结构 性 和 有 序 性 。 事 实 上 ， 和 所 有 使 用 的 堆 一 样 , 左 
式 堆 具有 相同 的 堆 序 性 质 , 该 性 质 我 们 已 经 看 到 过 。 不 仅 如 此 , 左 式 堆 也 是 二 又 树 。 左 式 堆 和 二 
又 堆 唯 一 的 区 别 是 : 左 式 堆 不 是 理想 平衡 的 ( perfectly balanced) ,而 实际 上 趋向 于 非常 不 平衡 。 





6.6.1 无 式 堆 性 质 (T) 
我 们 把 任 一 节点 X 的 零 路 径 长 (null path 
length) npl(X) 定 义 为 从 下 到 一 个 不 具有 两 个 o o 
儿子 的 节点 的 最 短路 径 的 长 。 因 此 , 具有 0 个 
或 一 个 儿子 的 节点 的 “npl 为 0, 而 npl © 7) 
(null) = -1。 在 图 6-20 的 树 中 , FRK 
标记 在 树 的 节点 内 。 
ER, 任 一 节点 的 零 路 径 长 比 它 的 各 个 儿 c) © 
子 节点 的 零 路 径 长 的 最 小 值 大 1。 这 个 结论 也 — 
适用 少 于 两 个 儿子 的 节点 ,因为 mall 的 零 路 径 ”左边 的 树 是 左 式 的 
和 是 -1。 


左 式 堆 性 质 是 : 对 于 堆 中 的 每 一 个 节点 X, 左 儿 子 的 零 路 径 长 至 少 与 右 儿子 的 零 路 径 长 相 
等 。 图 6-20 中 只 有 一 棵 树 ， 即 左边 的 那 棵 树 满足 该 性 质 。 这 个 性 质 实际 上 超出 了 它 确保 树 不 平 
MEHER, 因为 它 显 然 偏 重 于 使 树 向 左 增加 深度 。 确 实 有 可 能 存在 由 左 节点 形成 的 长 路 径 构成 
的 树 ( 而 且 实际 上 更 便于 合并 操作 ) 因此 , 我 们 就 有 了 名 称 左 式 堆 (leftist heap) 。 

因为 左 式 堆 趋 向 于 加 深 左 路 径 , 所 以 右 路 径 应 该 得。 事实 上 , 沿 左 式 堆 右 侧 的 右 路 径 确实 
是 该 堆 中 最 短 的 路 径 。 和 否则 , 就 会 存在 过 某 个 节点 的 一 条 路 径 通 过 它 的 左 儿 子 , 此 时 XX 就 破 
坏 了 左 式 堆 的 性 质 。 

定理 6.2 在 右 路 径 上 有 个 节点 的 左 式 树 必然 至 少 有 2 -1 个 节点 。 

WRR: 

用 数学 归纳 法 证 明 。 如 果 r=1, 则 必然 至 少 存在 一 个 树 节 点 。 其 次 , 设 定理 对 1、2、...、r 
个 节点 成 立 。 考 虑 在 右 路 径 上 有 r+1 个 节点 的 左 式 树 。 此 时 , 根 具有 在 右 路 径 上 含 r 个 节点 的 
右 子 树 ， 以 及 在 右 路 径 上 至 少 含 r 个 节点 的 左 子 树 ( 和 否则 它 就 不 是 左 式 树 ) 。 对 这 两 棵 子 树 应 用 
归纳 假设 , 得 知 在 每 棵 子 树 上 最 少 有 2 -1 个 节点 , 再 加 上 根 节点 , 于 是 在 该 树 上 至 少 有 2 -1 
个 节点 , 定理 得 证 。 回 

从 这 个 定理 立刻 得 到 ，N 个 节点 的 左 式 树 有 一 条 右 路 径 最 多 含有 L log(NW+1)j] 个 节点 。 对 左 式 
堆 操 作 的 一 般 思 路 是 将 所 有 的 工作 放 到 右 路 径 上 进行 , 它 保 证 树 深 度 短 。 唯 一 的 棘手 部 分 在 于 ， 
对 右 路 径 的 insert fll merge 可 能 会 破坏 左 式 堆 性 质 。 EKE, 恢复 该 性 质 是 非常 容易 的 。 
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6.6.2 ”无 式 堆 操作 
对 左 式 堆 的 基本 操作 是 合并 。 注 意 , 插入 只 是 合并 的 特殊 情形 , 因为 我 们 可 以 把 插入 看 成 
是 单 节点 堆 与 一 个 大 的 堆 的 merge, T G) 
先 , 我 们 给 出 一 个 简单 的 递归 解法 , 然后 介 
绍 如 何 能 够 非 递归 地 执行 该 解法 。 我 们 的 D O 
输入 是 两 个 左 式 堆 忆 MH, 见 图 6-21。 读 
者 应 该 验证 , 这 些 堆 确 实 是 左 式 堆 。 注 意 ; QD — (2) (U) 
最 小 的 元 素 在 根 处 。 除 数据 、 左 引用 和 右 
引用 所 用 空间 外 ,每 个 节点 还 要 有 一 个 指 Q) (Q9 + 
示 零 路 径 长 的 项 。 图 6-21 两 个 大 
如 果 这 两 个 堆 中 有 一 个 堆 是 空 的 ， 那 ae 


么 我 们 可 以 返回 另外 一 个 堆 。 否 则 , 合并 © 
RHE, 比较 它们 的 根 。 首 先 , RINE 


月 地 将 具有 大 的 根 值 的 堆 与 具有 小 的 根 值 。 。 (5 Q) 

的 堆 的 右 子 堆 合并 。 在 本 例 中 , 我 们 递归 

地 将 机 $ H, 的 根 在 8 处 的 右 子 堆 合 并 ， 

得 到 图 6-22 中 的 堆 。 oo a e 
由 于 这 棵 树 是 递归 形成 的 , 而 我 们 尚未 。 Gy 

对 算法 描述 完毕 , 因此 , 现在 还 不 能 说 明 该 (T) (18) 

堆 是 如 何 得 到 的 。 不 过 , 有 理由 假设 , 最 后 

的 结果 是 一 个 左 式 堆 , 因为 它 是 通过 递归 的 (26) 

步 又 得 到 的 。 这 很 像 归 纳 法 证 明 中 的 归纳 — 

假设 。 既 然 我 们 能 够 处 理 基准 情形 (发 生 在 00008 NER Sn PRAY 

一 棵 树 是 空 的 时 候 ) ,当然 可 以 假设 ,只 要 能 够 完成 合并 那么 递归 步 又 就 是 成 立 的 ; 这 是 递归 法 则 

3, 我 们 在 第 一 章 中 讨论 过 。 现 在 , 我 们 让 这 个 新 的 堆 成 为 H, 的 根 的 右 儿子 ( 见 图 6-23) 。 








图 6-23 将 前 面 图 中 的 左 式 堆 作 为 H, 的 右 儿 子 接 上 后 的 结果 


虽然 最 后 得 到 的 堆 满足 堆 序 性 质 , 但 是 , ERASE, 因为 根 的 左 子 树 的 零 路 径 长 为 1， 
而 根 的 右 子 树 的 零 路 径 长 为 2。 因 此 , 左 式 的 性 质 在 根 处 被 破坏 。 不 过 , 容易 看 到 , 树 的 其 余部 
分 必然 是 左 式 的 。 由 于 递归 步骤 , 根 的 右 子 树 是 左 式 的 。 根 的 左 子 树 没有 变化 ,当然 它 也 必然 
还 是 左 式 的 。 这 样 一 来 , 我 们 只 要 对 根 进行 调整 就 可 以 了 。 使 整个 树 是 左 式 的 操作 如 下 : 只 要 
交换 根 的 左 儿 子 和 右 儿 子 (图 6-24) 并 更 新 零 路 径 长 ,就 完成 了 merge, 新 的 零 路 径 长 是 新 的 右 
儿子 的 零 路 径 长 加 1。 注 意 , 如 果 零 路 径 长 不 更 新 , 那么 所 有 的 零 路 径 长 都 将 是 0， 而 堆 将 不 是 
左 式 的 , 只 是 随机 的 。 在 这 种 情况 下 , 算法 仍然 成 立 , 但 是 , 我 们 宣称 的 时 间 界 将 不 再 有 效 。 
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图 6-24 交换 H, 的 根 的 儿子 得 到 的 结果 


将 算法 的 描述 直接 翻译 成 代码 。 除 了 增加 np1( 零 路 径 长 ) 域外 , 节点 类 (图 6-25 ) 与 二 叉 树 
是 相同 的 。 左 式 堆 把 对 根 的 引用 作为 其 数据 成 员 存储 。 我 们 在 第 4 章 已 经 看 到 ， 当 一 个 元 素 被 
插入 到 一 棵 空 的 二 叉 树 时 , 由 根 引 用 的 节点 将 需要 改变 。 我 们 使 用 通常 的 实现 private 递归 
方法 的 技巧 进行 合并 。 该 类 的 架构 也 如 图 6-25 所 示 。 


public class LeftistHeap<AnyType extends Comparable<? super AnyType>> 
{ 
public LeftistHeap( ) 
{ root = null; } 


public void merge( LeftistHeap<AnyType> rhs ) 
{ /* Figure 6.26 «/ } 
public void insert( AnyType x ) 
{ /* Figure 6.29 */ } 
public AnyType findMin( ) 
{ /* See online code */ } 
public AnyType deleteMin( ) 
{ /* Figure 6.30 */ } 


public boolean isEmpty( ) 
{ return root == null; } 
public void makeEmpty( ) 
{ root = null; } 


private static class Node<AnyType> 
{ 
// Constructors 
Node( AnyType theElement ) 
{ this( theElement, null, null ); } 


Node( AnyType theElement, Node<AnyType> lt, Node<AnyType> rt ) 
{ element = theElement; left = 1t; right = rt; npl = 0; } 


AnyType element; // The data in the node 
Node<AnyType> left; // Left child 





图 6-25 左 式 堆 类 型 声明 
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Node<AnyType> right; // Right child 
int npl; // null path length 


private Node<AnyType> root;  // root 


private Node<AnyType> merge( Node<AnyType> hl, Node<AnyType> h2 ) 
{ /* Figure 6.26 */ ) 

private Node<AnyType> mergel( Node<AnyType> hl, Node<AnyType> h2 ) 
{ /* Figure 6.27 */ } 

private void swapChildren( Node<AnyType> t ) 
{ /* See online code */ } 





图 6-25 (52) 


两 个 merge 例 程 (图 6-26) 被 设计 成 消除 一 些 特殊 情形 并 保证 H, 有 较 小 根 的 驱动 程序 。 实 
际 的 合并 操作 在 mergel 中 进行 (图 6-27) 。 公 有 的 merge 方法 将 rhs 合并 到 控制 堆 中 。rhs 变 成 
了 空 的 。 在 这 个 公有 方法 中 的 别名 测试 不 接受 hmerge(h) 。 
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/** 
* Merge rhs into the priority queue. 
* rhs becomes empty. rhs must be different from this. 
* @param rhs the other leftist heap. 
*/ 
public void merge( LeftistHeap<AnyType> rhs ) 
{ 
if( this == rhs ) // Avoid aliasing problems 
return; 


root = merge( root, rhs.root ); 
rhs.root = null; 


/** 

* Internal method to merge two roots. 

* Deals with deviant cases and calls recursive mergel. 

*/ : 
private Node<AnyType> merge( Node<AnyType> hl, Node<AnyType> h2 ) 
{ 


if( hl == null ) 
return h2; 
if( h2 == null ) 
return hl; 
if( hl.element.compareTo( h2.element ) < 0 ) 
return mergel( hl, h2 ); 
else 
return mergel( h2, hl ); 


图 6-26 ”合并 左 式 堆 的 驱动 例 程 
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/** 
* Internal method to merge two roots. 
* Assumes trees are not empty, and hl's root contains smallest item. 
*/ 
private Node<AnyType> mergel( Node<AnyType> hl, Node<AnyType> h2 ) 
{ 
if( hl.left == null ) // Single node 
hl.left = h2; // Other fields in hl already accurate 
else 


{ 


1 
2 
3 
4 
5 
6 
7 
8 


hl.right = merge( hl.right, h2 ); 
if( hl.left.npl « hl.right.npl ) 
swapChildren( hl ); 
hl.npl = hl.right.npl + 1; 
) 


return hl; 





图 6-27 合并 左 式 堆 的 实际 例 程 


执行 合并 的 时 间 与 诸 右 路 径 的 长 的 和 成 正比 , 因为 在 递归 调用 期 间 对 每 一 个 被 访问 的 节点 
花费 的 是 常数 工作 量 。 因 此 , 我 们 得 到 合并 两 个 左 式 堆 的 时 间 界 为 0(log N) 。 也 可 以 分 两 趟 来 
非 递归 地 执行 该 操作 。 在 第 一 趟 , 我 们 通过 合并 两 个 堆 的 右 路 径 建 立 一 棵 新 的 树 。 为 此 ,以 排 
序 的 方式 安排 有 AH, 右 路 径 上 的 节点 , 保持 它们 各 自 的 左 儿子 不 变 。 在 我 们 的 例子 中 , 新 的 
右 路 径 是 3, 6, 7, 8, 18, 而 最 后 得 到 的 树 如 图 6-28 所 示 。 第 二 趟 构成 堆 , 儿子 的 交换 工作 在 左 
式 堆 性 质 被 破坏 的 那些 节点 上 进行 。 在 图 6-28 H, 在 节点 7 和 3 各 有 一 次 交换 , 并 得 到 与 前 面 
相同 的 树 。 非 递归 的 做 法 更 容易 理解 , 但 编程 困难 。 我 们 留 给 读者 去 证 明 : 递归 过 程 和 非 递归 
过 程 的 结果 是 相同 的 。 





图 6-28 合并 也 7l H, 的 右 路 径 的 结果 


上 面 提 到 , 我 们 可 以 通过 把 被 插入 项 看 成 单 节点 堆 并 执行 一 次 merge 来 完成 插入 。 为 了 
执行 deleteMin, 我 们 只 要 除 掉 根 而 得 到 两 个 堆 , 然后 再 将 这 两 个 堆 合并 即 可 。 因 此 , 执行 一 
次 deleteMin 的 时 间 为 O(log N)。 这 两 个 例 程 在 图 6-29 和 图 6-30 中 给 出 。 

最 后 , 我 们 可 以 通过 建立 一 个 二 叉 堆 (显然 使 用 链接 实现 ) 来 以 0(N) 时 间 建 立 一 个 左 式 
堆 。 尽 管 二 又 堆 显然 是 左 式 的 , HAE, 这 未 必 是 最 佳 解决 方案 , 因为 我 们 得 到 的 堆 可 能 是 最 差 
的 左 式 堆 。 不 仅 如 此 , 以 相反 的 层 序 遍 历 树 用 一 些 链 来 进行 也 不 那么 容易 。buildHeap 的 效 
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果 可 以 通过 递归 地 建立 左右 子 树 然后 将 根 下 滤 而 达到 。 练 习 中 包括 另外 一 个 解决 方案 。 


/** 
* Insert into the priority queue, maintaining heap order. 
* @param x the item to insert. 


«j 


public void insert( AnyType x ) 
{ 
root = merge( new Node<>( x ), root ); 


} 


AnD Ui -& WH 





图 6-29 左 式 堆 的 插入 例 程 


/** 

* Remove the smallest item from the priority queue. 

* @return the smallest item, or throw UnderflowException if empty. 
*/ 

public AnyType deleteMin( ) 

{ 


ONDOA UNSS 


if( isEmpty( ) ) 


throw new UnderflowException( ); 


AnyType minItem = root.element; 
root = merge( root.left, root.right ); 


return minItem; 





图 6-30” 左 式 堆 的 deleteMin 例 程 


6.7 Fs 


PHE (skew heap) 是 左 式 堆 的 自 调节 形式 , 实现 起 来 极其 简单 。 斜 堆 和 左 式 堆 间 的 关系 类 似 
于 伸展 树 和 AVL 树 间 的 关系 。 斜 堆 是 具有 堆 序 的 二 又 树 , 但 不 存在 对 树 的 结构 限制 。 不 同 于 左 
式 堆 , 关于 任意 节点 的 零 路 径 长 的 任何 信息 都 不 再 保留 。 斜 堆 的 右 路 径 在 任何 时 刻 都 可 以 任意 
K, 因此 , 所 有 操作 的 最 坏 情形 运行 时 间 均 为 O(N) 。 然 而 , 正如 伸展 树 一 样 , 可 以 证 明 ( 见 第 
11 章 ) 对 任意 M 次 连续 操作 , 总 的 最 坏 情形 运行 时 间 是 OCM log N) 。 因 此 , 斜 堆 每 次 操作 的 捧 
还 开销 (amortized cost) 7j O(log N)。 

与 左 式 堆 相同 ， 斜 堆 的 基本 操作 也 是 合并 操作 。merge 例 程 还 是 递归 的 , 我 们 执行 与 以 前 
完全 相同 的 操作 , 但 有 一 个 例外 , 即 : 对 于 左 式 堆 , 我 们 查看 是 否 左 儿 子 和 右 儿子 满足 左 式 堆 结 
构 性 质 ， 并 在 不 满足 该 性 质 时 将 它们 交换 。 但 对 于 斜 堆 ， 交换 是 无 条 件 的 , 除 那些 右 路 径 上 所 
有 节点 的 最 大 者 不 交换 它 的 左右 儿子 的 例外 外 ， (3) O 
我 们 都 要 进行 这 种 交换 。 这 个 例外 就 是 在 自然 弟 
归 实 现时 所 发 生 的 情况 , 因此 它 实际 上 根本 不 是 (10) (8) (12) (7) 
特殊 情形 。 此 外 , 证 明 时 间 界 也 是 不 必要 的 , 但 
E, 由 于 这 样 的 节点 肯定 没有 右 儿 子 , 因此 执行 C0 OO © AD & 
交换 是 不 明智 的 (在 我 们 的 例子 中 , 该 节点 没有 
儿子 ,因此 我 们 不 必 为 此 担心 )。 另 外 , par O C9 ^ © H 
们 的 输入 是 与 前 面相 同 的 两 个 堆 , 见 图 6-31. 图 6-31 两 个 斜 堆肥 MH 
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如 果 我 们 递归 地 将 H, H, 的 根 在 8 处 的 子 堆 合 并 , 那么 将 得 到 图 6-32 中 的 堆 。 





图 6-32 $ H, GH, 的 右 子 堆 合 并 的 结果 


这 又 是 递归 完成 的 , 因此 , 根据 递归 的 第 三 个 法 则 (1.3 节 ) 我 们 不 必 担 心 它 是 如 何 得 到 的 。 
这 个 堆 碰 巧 是 左 式 的 , 不 过 不 能 保证 情况 总 是 如 此 。 我 们 使 这 个 堆 成 为 H 的 新 的 左 儿 子 ,而 
H, 的 老 的 左 儿 子 变 成 了 新 的 右 儿 子 ( 见 图 6-33) 。 





图 6-33 合并 斜 堆 H, 和 H, 的 结果 


整个 树 是 左 式 的 , 但 是 容易 看 到 这 并 不 总 是 成 立 的 : 将 15 插入 到 新 堆 中 将 破坏 左 式 性 质 。 

我 们 也 可 像 左 式 堆 那 样 非 递归 地 进行 所 有 操作 : 合并 右 路 径 , 除 最 后 的 节点 外 交换 右 路 径 - 
上 每 个 节点 的 左 儿 子 和 右 儿 子 。 经 过 几 个 例子 之 后 , 事情 变 得 很 清楚 , 由 于 除去 右 路 径 上 最 后 
的 节点 外 的 所 有 节点 都 将 它们 的 儿子 交换 , 因此 最 终 效果 是 它 变 成 了 新 的 左 路 径 (参见 前 面 的 
例子 以 便 使 你 自己 确信 ) 。 这 使 得 合并 两 个 斜 堆 非 常 容易 = 。 

斜 堆 的 实现 留 作 (平凡 的 ) 练 习 。 注 意 , 因为 右 路 径 可 能 很 长 , 所 以 递归 实现 可 能 由 于 缺乏 
栈 空间 而 失败 , 尽管 在 其 他 方面 性 能 是 可 接受 的 。 斜 堆 有 一 个 优点 ， 即 不 需要 附加 的 空间 保留 
路 径 长 以 及 不 需要 测试 以 确定 何 时 交换 儿子 。 精 确 确定 左 式 堆 和 和 斜 堆 的 右 路 径 长 的 期 望 值 是 一 
个 尚未 解决 的 问题 (后 者 无 疑 更 为 困难 )。 这 样 的 比较 将 更 容易 确定 平衡 信息 的 轻微 遗失 是 否 
可 由 缺乏 测试 来 补偿 。 2al 


6.8 二 项 队列 


虽然 左 式 堆 和 和 斜 堆 都 在 每 次 操作 以 0(log N) 时 间 有 效 地 支持 合并 、 插 入 和 deleteMin, 
但 还 是 有 改进 的 余地 ,因为 我 们 知道 , 二 叉 堆 以 每 次 操作 花费 常数 平均 时 间 支 持 插入 。 二 项 队 
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O 这 与 递归 实现 不 完全 相同 (但 服从 相同 的 时 间 界 ) 。 如 果 一 个 堆 的 右 路 径 用 完 而 导致 右 路 径 合并 终止 ,而 我 
们 只 交换 终止 的 那 一 点 上 面 的 右 路 径 上 那些 节点 的 儿子 , 那么 将 得 到 与 递归 做 法 相同 的 结果 。 
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列 支 持 所 有 这 三 种 操作 , 每 次 操作 的 最 坏 情 形 运行 时 间 为 Oog N) ,而 插入 操作 平均 花费 常数 
时 间 。 
6.8.1 二 项 队列 结构 

二 项 队列 (binomial queue ) 与 我 们 已 经 看 到 的 所 有 优先 队列 的 实现 的 区 别 在 于 , 一 个 二 项 队 
列 不 是 一 棵 堆 序 的 树 , 而 是 堆 序 的 树 的 集合 , 称 为 森林 (forest) 。 每 一 棵 堆 序 树 都 是 有 约束 的 形 
式 , 叫 作 二 项 树 (binomial tree, 后 面 将 看 到 该 名 称 的 由 来 是 显然 的 ) 。 每 一 个 高 度 上 至 多 存在 一 
棵 二 项 树 。 高 度 为 0 的 二 项 树 是 一 棵 单 节 点 树 ; 高 度 为 的 二 项 树 B, 通过 将 一 棵 二 项 树 B, LR 
接 到 另 一 棵 二 项 树 B，_, 的 根 上 而 构成 。 图 6-34 显示 二 项 树 B。、B,、B,、B; 以 及 B,. 


B, 


图 6-34 二 项 树 B,、B,、B,、B, VAR B, 
从 图 中 看 到 , 二 项 树 B, 由 一 个 带 有 儿子 B, Bso, Bi ,的 根 组 成 。 高 度 为 的 二 项 树 恰 
k 
好 有 :24 个 节点 , 而 在 深度 d 处 的 节点 数 是 二 项 系数 中 如 果 我 们 把 堆 序 施加 到 二 项 树 上 并 允 


许 任意 高 度 上 最 多 一 棵 二 项 树 , 那么 就 能 够 用 二 项 树 的 集合 表示 任意 大 小 的 优先 队列 。 例 如 ， 
大 小 为 13 的 优先 队列 可 以 用 森林 B,, BL, B, 表示 。 我 们 可 以 把 这 种 表示 写成 1101, 它 不 仅 以 
二 进 制 表 示 了 13, 而 且 也 表示 这 样 的 事实 : 在 上 述 表示 中 , B, B,, By 出 现 , 而 有 则 没有 。 

作为 一 个 例子 , 6 个 元 素 的 优先 队列 可 以 表示 为 图 6-35 中 的 形状 。 
6.8.2 二 项 队列 操作 

此 时 , 最 小 元 可 以 通过 搜索 所 有 的 树 的 根来 找 出 。 由 于 最 多 有 log N 棵 不 同 的 树 , 因此 找到 
最 小 元 的 时 间 可 以 为 0(log N) 。 另 外 , 如 果 我 们 记 住 当 最 小 元 在 其 他 操作 期 间 变 化 时 更 新 它 , JD 
么 也 可 保留 最 小 元 的 信息 并 以 O C1) 时间 执 行 这 种 操作 。 

合并 两 个 二 项 队列 在 概念 上 是 一 个 容易 的 操作 , 我 们 将 通过 例子 描述 它 。 考 虑 两 个 二 项 队 


列 H, 和 HH ,它们 分 别 基 有 6 个 和 7 个 元 素 ， 见 图 6-36。 
alio" 
(16) (2) y, € (14) 
E = 


图 6-35 具有 6 个 元 素 的 二 项 队列 H, 图 6-36 两 个 二 项 队列 有 和， 


合并 操作 基本 上 是 通过 将 两 个 队列 加 到 一 起 来 完成 的 。 令 是 新 的 二 项 队列 。 由 于 H.E 
有 高 度 为 0 的 二 项 树 而 H, 有 ,因此 我 们 就 用 H, 中 高 度 为 0 的 二 项 树 作为 H, 的 一 部 分 。 然 后 ， 
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将 两 个 高 度 为 1 的 二 项 树 相 加 。 由 于 A, A H, 都 有 高 度 为 1 的 二 项 树 , 因此 可 以 将 它们 合并 ， 
让 大 的 根 成 为 小 的 根 的 子 树 , 从 而 建立 高 度 为 2 的 二 项 树 ， 见 图 6-37。 这 样 , H, 将 没有 高 度 为 
1 的 二 项 树 。 现 在 存在 3 棵 高 度 为 2 的 二 项 树 , 即 H, RI A, 原 有 的 两 棵 二 项 树 以 及 由 上 一 步 形 
成 的 一 棵 二 项 树 。 我 们 将 一 棵 高 度 为 2 的 二 项 树 放 到 H, 中 并 合并 其 他 两 个 二 项 树 , 得 到 一 棵 
高 度 为 3 的 二 项 树 。 由 于 H A, 都 没有 高 度 为 3 的 二 项 树 , 因此 该 二 项 树 就 成 为 有 的 一 部 
分 , 合并 结束 。 最 后 得 到 的 二 项 队列 如 图 6-38 所 示 。 


" Q3) 
E 
Q6) (16) 
(18) 


图 6-37 H, fil H, 中 两 棵 B, 树 合并 图 6-38 二 项 队列 H,; 合并 H, All H, 的 结果 


由 于 几乎 使 用 任意 合理 的 实现 方法 合并 两 棵 二 项 树 均 花费 常数 时 间 ， 而 总 共存 在 0(log N) 
棵 二 项 树 , 因此 合并 操作 在 最 坏 情 形 下 花费 时 间 0(log N) 。 为 使 该 操作 更 有 效 , 我 们 需要 将 这 
些 树 放 到 按照 高 度 排 序 的 二 项 队列 中 , 当然 这 是 一 项 简单 的 操作 。 

插 和 人 实际 上 就 是 特殊 情形 的 合并 , 因为 我 们 只 要 创建 一 棵 单 节 点 树 并 执行 一 次 合并 即 可 。 
这 种 操作 的 最 坏 情形 运行 时 间 也 是 O(log N) 。 更 准确 地 说 ， 如 果 元 素 将 要 插 和 人 的 那个 优先 队列 
中 不 存在 的 最 小 的 二 项 树 是 B,, 那么 运行 时 间 与 i+1 成 正比 。 例 如 , H, (IE 6-38) 缺少 高 度 为 
1 的 二 项 树 , 因此 插入 将 进行 两 步 终 止 。 由 于 二 项 队列 中 的 每 棵 树 均 以 概率 1/2 出 现 , 于 是 我 
们 预计 插入 在 两 步 后 终止 , 因此 , 平均 时 间 是 常数 。 不 仅 如 此 , 分 析 将 指出 , 对 一 个 初始 为 空 的 
二 项 队列 进行 N 次 insert 将 花费 0(N) 最 坏 情形 时 间 。 事 实 上 , 只 用 NN-1 次 比较 就 有 可 能 进行 
该 操作 ; 我 们 把 它 留 作 练习 。 

作为 一 个 例子 , 我 们 用 图 6-39 到 图 6-45 演示 通过 依 序 插入 1 到 7 来 构成 一 个 二 项 队列 。4 
的 插入 展现 一 种 坏 的 情形 。 我 们 把 4 与 B, 合并 , 得 到 一 棵 新 的 高 度 为 1 的 树 。 然 后 将 该 树 与 
B, 合并 , 得 到 一 棵 高 度 为 2 的 树 , 它 是 新 的 优先 队列 。 我 们 把 这 些 算 作 3 步 ( 两 棵 树 合并 加 上 
终止 情形 ) 。 在 插入 7 以 后 的 下 一 次 插入 又 是 一 个 坏 情形 ,需要 3 次 树 的 合并 操作 。 


ao 


图 6-39 在 1 插入 之 后 图 6-40 在 2 插入 之 后 图 6-41 在 3 插入 之 后 图 6-42 在 4 插入 之 后 


* a, % Va, P e oa, 


图 6-43 在 5 插入 之 后 图 6-44 在 6 插入 之 后 图 6-45 在 7 插入 之 后 


deleteMin 可 以 通过 首先 找 出 一 棵 具有 最 小 根 的 二 项 树 来 完成 。 令 该 树 为 BL, 并 令 原 
始 的 优先 队列 为 H。 RAIA H 的 树 的 森林 中 除去 二 项 树 BL, 形成 新 的 二 项 树 队列 不 。 再 除 
去 B, 的 根 , 得 到 一 些 二 项 树 Ba, Bi ooo Beis 它们 共同 形成 优先 队列 厂 。 合 并 H'A H", 
操作 结束 。 

作为 例子 , 设 对 执行 一 次 deleteMin, 它 在 图 6-46 中 表示 。 最 小 的 根 是 12, 因此 我 们 
得 到 图 6-47 和 图 6-48 中 的 两 个 优先 队列 H'A H" AIF H' 和 HEH" 得 到 的 二 项 队列 是 最 后 的 答案 ， 
如 图 6-49 所 示 。 








[253 | 


[254 | 


255 
i 
256 


176 OF 


x © Q3) 
6) Q4 
(65 











图 6-46 二 项 队列 H, 图 6-47 二 项 队列 H', 包含 除 B, 外 
H, 中 所 有 的 二 项 树 
wr QD (4) 
(65) Q6) (16) 
(18) 
图 6-48 二 项 队列 H": 除去 12 后 的 B, 图 6-49 deleteMin 应 用 到 的 结果 


为 了 分 析 , 首先 注意 , deleteMin 操作 将 原 二 项 队列 一 分 为 二 。 找 出 含有 最 小 元 素 的 树 并 
创建 队列 H' 和 H” 花 费时 间 O(log N)。 合 并 这 两 个 队列 又 花费 0(log N) 时 间 , 因此 ,整个 
deleteMin 操作 花费 时 间 O(log N)。 

6.8.3 二 项 队列 的 实现 

deleteMin 操作 需要 快速 找 出 根 的 所 有 子 树 的 能 力 , 因此 , 需要 一 般 树 的 标准 表示 方法 : 
每 个 节点 的 儿子 都 在 一 个 链表 中 , 而 且 每 个 节点 都 有 一 个 对 它 的 第 一 个 儿子 (如 果 有 的 话 ) 的 引 
用 。 该 操作 还 要 求 各 个 儿子 按照 它们 的 子 树 的 大 小 排序 。 我 们 还 需要 保证 合并 两 棵 树 容易 。 当 
两 棵 树 被 合并 时 , 其 中 的 一 棵 树 作为 儿子 被 加 到 另 一 棵 树 上 。 由 于 这 棵 新 树 将 是 最 大 的 子 树 ， 
因此 , 以 大 小 递减 的 方式 保持 这 些 子 树 是 有 意义 的 。 只 有 这 时 我 们 才能 够 有 效 地 合并 两 棵 二 项 
树 从 而 合并 两 个 二 项 队列 。 二 项 队列 将 是 二 项 树 的 数组 。 

总 而 言 之 , 二 项 树 的 每 一 个 节点 将 包含 数据 、 第 一 个 儿子 以 及 右 兄弟 。 二 项 树 中 的 各 个 儿 
子 以 降 秩 次 序 排列 。 

图 6-51 解释 了 如 何 表示 图 6-50 中 的 二 项 队列 。 图 6-52 显示 二 项 树 中 的 节点 的 类 型 声明 以 
及 二 项 队列 的 类 架构 。 

为 了 合并 两 个 二 项 队列 , 我 们 需要 一 个 例 程 来 合并 两 个 同样 大 小 的 二 项 树 。 图 6-53 表明 两 
个 二 项 树 合 并 时 链 是 如 何 变化 的 。 合 并 同样 大 小 的 两 棵 二 项 树 的 程序 很 简单 ， 见 图 6-54。 
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图 6-50 画 成 森林 的 二 项 队列 H, 





6-51 二 项 队列 H, 的 表示 方式 
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public class BinomialQueue<AnyType extends Comparable<? super AnyType>> 


{ 


public BinomialQueue( ) 
{ /* See online code */ } 

public BinomialQueue( AnyType item ) 
{ /* See online code */ } 


public void merge( BinomialQueue<AnyType> rhs ) 
{ /* Figure 6.55 x/ } 
public void insert( AnyType x ) 
{ merge( new BinomialQueue<>( x ) ); } 
public AnyType findMin( ) 
{ /* See online code */ } 
public AnyType deleteMin( ) 
{ /* Figure 6.56 x/ } 


public boolean isEmpty( ) 

( return currentSize == 0; ] 
public void makeEmpty( ) 

{ /* See online code */ } 


private static class Node<AnyType> 
{ 
// Constructors 
Node( AnyType theElement ) 
{ this( theElement, null, null ); } 


Node( AnyType theElement, Node<AnyType> lt, Node<AnyType> nt ) 
{ element = theElement; leftChild = 1t; nextSibling = nt; } 


AnyType element; // The data in the node 
Node<AnyType> leftChild; ^ // Left child 
Node<AnyType> nextSibling; // Right child 

) 


private static final int DEFAULT TREES = 1; 


private int currentSize; // * items in priority queue 
private Node<AnyType> [ ] theTrees; // An array of tree roots 


private void expandTheTrees( int newNumTrees ) 
{ /* See online code */ } 


private Node<AnyType> combineTrees( Node<AnyType> tl, Node<AnyType> t2 ) 


{ /* Figure 6.54 «/ } 


private int capacity( ) 

{ return ( 1 << theTrees.length ) - 1; } 
private int findMinIndex( ) 
{ /* See online code */ } 


图 6-52 二 项 队列 类 架构 及 节点 定义 
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图 6-53 合并 两 棵 二 项 树 


/** 
* Return the result of merging equal-sized tl and t2. 
*/ 
private Node<AnyType> combineTrees( Node<AnyType> tl, Node<AnyType> t2 ) 
{ 

if( tl.element.compareTo( t2.element ) > 0 ) 

return combineTrees( t2, t1 ); 

t2.nextSibling = tl.leftChild; 

tl.leftChild = t2; 

return t1; 
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图 6-54 合并 同样 大 小 的 两 棵 二 项 树 的 例 程 


现在 我 们 介绍 merge 例 程 的 简单 实现 。H, 由 当前 的 对 象 表示 而 H, 则 用 chs 表示 。 该 例 
E H, 8I H, 合并 , 把 合并 结果 放 入 H, 中, 并 清空 H,。 在 任意 时 刻 我 们 在 处 理 的 是 秩 (rank) 为 
i 的 那些 树 。t, Alt, 分 别 是 H AH, "PRSE, 而 carry 是 从 上 一 步 得 来 的 树 ( 它 可 能 是 null)。 
从 秩 为 i 的 树 以 及 秩 为 i+1 W carry 的 树 所 形成 的 树 , 依赖 于 8 种 可 能 情形 中 的 每 一 种 。 程 序 
见 图 6-55。 对 程序 的 改进 在 练习 6. 35 中 提出 。 


/** 

* Merge rhs into the priority queue. 

* rhs becomes empty. rhs must be different from this. 
* @param rhs the other binomial queue. 

*/ 
public void merge( BinomialQueue<AnyType> rhs ) 


{ 


Oo 4 OV UA - WH o — 


if( this == rhs ) // Avoid aliasing problems 
return; 


currentSize += rhs.currentSize; 


if( currentSize » capacity( ) ) 


{ 


int maxLength = Math.max( theTrees.length, rhs.theTrees.length ); 
expandTheTrees( maxLength + 1 ); 


} 


Node<AnyType> carry = null; 
for( int i = 0, j = 1; j <= currentSize; i++, j *= 2) 





图 6-55 合并 两 个 优先 队列 的 例 程 


RERA) 
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Node<AnyType> tl = theTrees[ i ]; 
Node<AnyType> t2 = i < rhs.theTrees.length ? rhs.theTrees[ i ] : null; 


int whichCase = t1 == null ? 0 : 1; 
whichCase += t2 == null ? 0 : 2; 
whichCase += carry == null ? 0 : 4; 


switch( whichCase ) 


{ 


case 0: /* No trees */ 
case 1: /* Only this */ 
break; 
case 2: /* Only rhs */ 
theTrees[ i ] = t2; 
rhs.theTrees[ i ] = null; 
break; 
case 4: /* Only carry */ 
theTrees[ i ] = carry; 
carry = null; 
break; 
case 3: /* this and rhs */ 
carry = combineTrees( tl, t2 ); 
theTrees[ i ] = rhs.theTrees[ i ] = null; 
break; 
case 5: /* this and carry */ 
carry = combineTrees( tl, carry ); 
theTrees[ i ] = null; 
break; 
case 6: /* rhs and carry */ 
carry = combineTrees( t2, carry ); 
rhs.theTrees[ i ] = null; 
break; 
case 7: /* All three «/ 
theTrees[ i ] = carry; 
carry = combineTrees( tl, t2 ); 
rhs.theTrees[ i ] = null; 
break; 


for( int k = 0; k < rhs.theTrees.length; k++ ) 
rhs.theTrees[ k ] = null; 
rhs.currentSize = 0; 





图 6-55 (94) 


二 项 队列 的 aeleteMin 例 程 在 图 6-56 中 给 出 。 

我 们 可 以 将 二 项 队列 扩展 到 支持 二 又 堆 所 允许 的 某 些 非 标 准 的 操作 , 诸如 decreaseKey 
和 delete 等 ， 前 提 是 受到 影响 的 元 素 的 位 置 已 知 。decreaseKey 是 一 个 percolateUp, 如 
果 我 们 将 一 个 域 加 到 每 个 节点 上 存储 其 父 链 , 那么 这 个 操作 可 以 在 时 间 O(log N) 内 完成 。 一 次 
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任意 的 delete 可 以 通过 结合 decreaseKey 和 deleteMin 而 以 时 间 O(log N) 完成 。 


/** 
* Remove the smallest item from the priority queue. 
* (return the smallest item, or throw UnderflowException if empty. 
*/ 
public AnyType deleteMin( ) 
{ 

if( isEmpty( ) ) 

throw new UnderflowException( ); 


O0 1 DU AW ho — 


int minIndex = findMinIndex( ); 
AnyType minItem = theTrees[ minIndex ].element; 


Node<AnyType> deletedTree = theTrees[ minIndex ].leftChild; 


// Construct H'' 
BinomialQueue<AnyType> deletedQueue = new BinomialQueue<>( ); 
deletedQueue.expandTheTrees( minIndex * 1 ); 


deletedQueue.currentSize = ( 1 «« minIndex ) - 1; 
for( int j = minIndex - 1; j >= 0; j-- ) 
{ 
deletedQueue.theTrees[ j ] = deletedTree; 
deletedTree = deletedTree.nextSibling; 
deletedQueue.theTrees[ j ].nextSibling = null; 
} 


// Construct H' 
theTrees[ minIndex ] = null; 
currentSize -= deletedQueue.currentSize + 1; 


merge( deletedQueue ); 


return minItem; 





6-56 ”二 项 队列 的 deleteMin, 用 到 findMinIndex 方法 


6.9 标准 库 中 的 优先 队列 


在 Java 1. 5 之 前 , Java 类 库 中 不 存在 对 优先 队列 的 支持 。 然 而 在 Java 1.5 中 出 现 了 泛 型 类 
PriorityQueue, 在 该 类 中 insert, findMin 和 deleteMin 通过 调用 add, element 和 
remove 而 被 表示 。PriorityQueue 对 象 可 以 通过 无 参数 、 一 个 比较 器 、 或 另 一 个 兼容 的 集 
合 构造 出 来 。 

由 于 优先 队列 有 许多 有 效 的 实现 方法 , 因此 该 类 库 的 设计 者 们 没有 选择 让 PriorityQueue 
成 为 一 个 接口 。 虽 然 如 此 , PriorityQueue ft Java 1.5 中 的 实现 对 大 多 数 优先 队列 的 应 用 还 
是 足够 的 。 


小 结 
本 章 介绍 了 优先 队列 ADT 的 各 种 实现 方法 和 用 途 。 标 准 的 二 又 堆 实现 具有 简单 和 快速 的 


优先 队列 ( 挫 ) 18] 





优点 。 它 不 需要 链 , 只 需要 常量 的 附加 空间 , 且 有 效 地 支持 优先 队列 的 操作 。 
我 们 考虑 了 附加 的 merge RE, 开发 了 三 种 实现 方法 , 每 种 都 有 其 独到 之 处 。 左 式 堆 是 递 
归 威 力 的 完美 实例 。 斜 堆 则 代表 缺少 平衡 原则 的 一 种 重要 的 数据 结构 。 它 的 分 析 是 有 趣 的 ,我 
们 将 在 第 11 章 进行 。 二 项 队列 指出 一 个 简单 的 想法 如 何 能 够 用 来 达到 好 的 时 间 界 。 
我 们 还 看 到 优先 队列 的 几 个 用 途 , 从 操作 系统 的 工作 调度 到 事件 模拟 。 我 们 将 在 第 7、9 和 | ， 
10 章 再 次 看 到 它们 的 应 用 。 262 


练习 


6.1 
6.2 


6.3 
6.4 


6.5 
6.6 
6.7 


操作 insert 和 findMin 都 能 以 常数 时 间 实 现 吗 ? 

a. 写 出 一 次 一 个 地 将 10, 12, 1, 14,6, 5. 8, 15, 3,9, 7,4, 1 13 Al2 FHA BI— Ts HO 
二 叉 堆 中 的 结果 。 

b. 写 出 使 用 上 述 相同 的 输入 通过 线性 时 间 算 法 建立 一 个 二 又 堆 的 结果 。 

写 出 对 上 面 练 习 中 的 堆 执 行 3 次 deleteMin 操作 的 结果 。 

N 个 元 素 的 完全 二 又 树 用 到 数组 位 置 1 到 N。 设 试图 使 用 数组 表示 法 表示 非 完 全 的 二 叉 树 。 对 

于 下 列 的 情况 确定 数组 必须 要 多 大 : ‘ 

a. 一 棵 有 两 个 附加 层 ( 即 它 是 非常 轻微 地 不 平衡 ) 的 二 叉 树 

b. 在 深度 2 log N 处 有 一 个 最 深 的 节点 的 二 又 树 

c. 在 深度 4. 1 log N 处 有 一 个 最 深 的 节点 的 二 又 树 

d. 最 坏 情形 的 二 叉 树 

通过 把 被 插入 项 的 引用 放 在 位 置 0 处 重 写 BinaryHeap 的 inset 方法 。 

在 图 6-13 的 大 的 堆 中 有 多 少 节点 ? 

a. 证 明 对 于 二 叉 堆 , buildHeap 至 多 在 元 素 间 进行 2N -2 次 比较 。 

b. 证 明 8 个 元 素 的 堆 可 以 通过 堆 元 素 间 的 8 次 比较 构成 。 


"e. 给 出 一 个 算法 , TEN + O(log. N) 次 元 素 比较 构建 一 个 二 又 堆 。 


6.8 


证 明 下 列 关于 堆 中 的 最 大 项 的 结论 ; 

a 它 必然 在 一 片 树叶 上 。 

b. 恰好 存在 [ N/2 ] 片 树叶 。 

c. 为 找 出 它 必 须 考查 每 一 片 树叶 。 

证 明 , 在 一 个 大 的 完全 堆 ( 可 以 假设 W=2“ -1) 中 第 个 最 小 元 的 期 望 深度 以 log 为 界 。 

a 给 出 一 个 算法 找 出 二 叉 堆 中 小 于 某 个 值 X 的 所 有 节点 。 你 的 算法 应 该 以 0(K) 时 间 运 行 , 其 
中 ,是 输出 的 节点 的 个 数 。 

b. 该 算法 可 以 扩展 到 本 章 讨 论 过 的 任何 其 他 堆 结构 吗 ? 


“ce 给 出 一 个 算法 , 最 多 使 用 大 约 3N/4 次 比较 找 出 二 又 堆 中 任意 的 项 X。 


6. 13 


提出 一 个 算法 , DOCM + log N loglog N) 时 间 将 M 个 节点 插入 到 IN 个 元 素 的 二 叉 堆 中 。 证 明 该 
算法 的 时 间 界 。 

编写 一 个 程序 输入 NN 个 元 素 并 

a. 将 它们 一 个 一 个 地 插入 到 一 个 堆 中 。 

b. 以 线性 时 间 建 立 一 个 堆 。 
比较 这 两 个 算法 对 于 已 排序 、 反 序 、 以 及 随机 输入 的 运行 时 间 。 

每 个 deleteMin 操作 在 最 坏 情形 下 使 用 2log 次 比较 。 


“a. 提出 一 种 方案 使 得 deleteMin 操作 只 使 用 log N + loglog N+0(1) 次 元 素 间 的 比较 。 这 未 必 


就 意味 着 较 少 的 数据 移动 。 


"b. 扩展 你 在 (a) 部 分 中 的 方案 使 得 只 执行 log N + logloglog N+0(1) 次 比较 。 
"e. 你 能 够 把 这 种 想法 推 向 多 远 ? 


d. 在 比较 中 节省 下 的 资源 能 否 补偿 你 的 算法 增加 的 复杂 性 ? 
如 果 一 个 d- 堆 作为 一 个 数组 存储 , 对 位 于 位 置 i 的 项 , 其 父亲 和 儿子 都 在 哪里 ? 
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6. 16 
6. 17 


. 
Re ME - p 


设 一 个 d- 堆 初始 时 及 个 元 素 , 而 我 们 需要 对 其 执行 M K percolateUp fll N IX deleteMin, 
a. 用 MWH、V 和 过 表 示 的 所 有 操作 的 总 运行 时 间 是 多 少 ? 

b. 如 果 d=2, 所 有 的 堆 操作 的 运行 时 间 是 多 少 ? 

c. ll d= O(N) , 总 运行 时 间 是 多 少 ? 


“d. 对 d 作 什么 选择 将 使 总 运行 时 间 最 小 ? 


设 二 叉 堆 用 显 式 链 表示 。 给 出 一 个 简单 算法 来 找 出 位 于 位 置 ; 上 的 树 节点 。 

设 二 又 堆 用 显 式 链表 示 。 考 虑 将 二 叉 堆 lhs 和 rhs 合并 的 问题 。 假 设 这 两 个 二 叉 堆 均 为 满 的 完 
全 树 , 分 别 包 含 2 -1 和 27 -1 个 节点 。 

a Al=r, 给 出 合并 这 两 个 堆 的 0(log N) 算 法 。 

b. 若 |!-r| =1, 给 出 合并 这 两 个 堆 的 O(log N) 算 法 。 

c. 给 出 合并 这 两 个 堆 的 与 1 和 无 关 的 0(log N) 算 法 。 

最 小 -最 大 堆 ( min-max heap) 是 支持 两 种 操作 deleteMin 和 deleteMax 的 数据 结构 ,每 个 操 
作用 时 O(log N) 。 该 结构 与 二 叉 堆 相同 , 不 过 , 其 堆 序 性 质 为 : 对 于 在 偶数 深度 上 的 任意 节点 
X, 存储 在 上 的 元 素 小 于 它 的 父亲 但 是 大 于 它 的 祖父 ( 当 这 是 有 意义 的 时 候 ) , 对 于 奇数 深度 上 
BERITA A, 存储 在 XX 上 的 元 素 大 于 它 的 父亲 但 是 小 于 它 的 祖父 , 见 图 6-57. 





图 6-57 最 小 -最 大 堆 
如 何 找 到 最 小 元 和 最 大 元 ? 


“b. 给 出 一 个 算法 将 一 个 新 节点 插入 到 该 最 小 -最 大 堆 中 。 


.给 出 一 个 算法 执行 deleteMin 和 deleteMax。 


“d. 你 能 否 以 线性 时 间 建 立 一 个 最 小 最 大 堆 ? 
“e 设 我 们 想 要 支持 操作 deleteMin, deleteMax 以 及 merge。 提 出 一 种 数据 结构 以 时 间 


O(log N) 支 持 所 有 的 操作 。 
合并 图 6-58 中 的 两 个 左 式 堆 。 





6-58 ”练习 6.19 和 6. 26 的 输入 


写 出 依 序 将 关键 字 1 到 15 插入 到 一 个 初始 为 空 的 左 式 堆 中 的 结果 。 

证 明 下 述 结论 成 立 或 证 明 其 不 成 立 : 如 果 将 关键 字 1 到 2 -1 依 序 插入 到 一 个 初始 为 空 的 左 式 堆 
中 , 那么 结果 形成 一 棵 理想 平衡 树 ( perfeetly balanced tree) 。 

给 出 生成 最 佳 左 式 堆 的 输入 的 例子 。 
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6.23 


6.24 


6.25 


a. 左 式 堆 能 否 有 效 地 支持 decreaseKey? 

b. 完成 该 功能 需要 枝 些 改变 (如果 可 能 的 话 )? 

从 左 式 推 中 一 个 已 知 位 置 删除 节点 的 一 种 方法 是 使 用 懒惰 策略 。 为 了 删除 一 个 节点 ， 只 要 将 其 
标记 为 被 删除 即 可 。 当 执行 一 个 findMin 或 deleteMin 时 , 若 标记 根 节 点 被 删除 则 存在 一 个 
潜在 的 问题 , 因为 此 时 该 节点 必须 被 实际 删除 且 需 要 找到 实际 的 最 小 元 , 这 可 能 涉及 到 删除 其 
他 一 些 已 做 标记 的 节点 。 在 该 策略 中 , 这 些 delete 花费 一 个 单位 , 但 一 次 deleteMin 或 
findMin 的 开销 却 依赖 于 被 作 删 除 标记 的 节点 的 个 数 。 设 在 一 次 deleteMin 或 findMin 后 
作 标 记 的 节点 比 操作 前 减少 个 。 


“a 说 明 如 何以 O(k log N) 时 间 执 行 deleteMin, 
Ub. 提出 一 种 实现 方法 , 通过 分 析 ， 证 明 执 行 deleteMin 的 时 间 为 O(k log(2N/k) ) 。 


我 们 可 以 以 线性 时 间 对 一 些 左 式 堆 执行 baildHeap 操作 : 把 每 个 元 素 当 作 是 单 节 点 左 式 堆 , 把 
所 有 这 些 堆 放 到 一 个 队列 中 , 之 后 , 让 两 个 堆 出 队 , 合并 它们 , 再 将 合并 结果 人 队 , 直到 队列 中 
只 有 一 个 堆 为 止 。 

a. 证 明 该 算法 在 最 坏 情 形 下 为 0( NN) 。 

b. 为 什么 该 算法 优 于 课文 中 描述 的 算法 ? 

合并 图 6. 58 中 的 两 个 斜 堆 

写 出 将 关键 字 1 到 15 依 序 插入 到 一 斜 堆 内 的 结果 。 

证 明 下 述 结论 成 立 或 不 成 立 : 如 果 将 关键 字 1 到 2 -1 依 序 插入 到 一 个 初始 为 空 的 斜 堆 中 , 那么 
结果 形成 一 棵 理想 平衡 树 ( perfectly balanced tree) 。 

使 用 标准 的 二 又 堆 算法 可 以 建立 一 个 W 个 元 素 的 斜 堆 。 我 们 能 否 使 用 练习 6.25 中 描述 的 同样 的 
合并 策略 用 于 斜 堆 而 得 到 O(N) 运行 时 间 ? 

证 明 二 项 树 B, 以 二 项 树 Bo, By, ..., By, 作为 其 根 的 儿子 。 


k 
证 明 高 度 为 上 的 二 项 树 在 深度 4 有 | J^ 
将 图 6-59 中 的 两 个 二 项 队列 合并 。 


(3) e 
ORO. 





(65) 


Po "oa, 


图 6-59 练习 6.32 中 的 输入 


a. 证 明 , 向 初始 为 空 的 二 项 队列 进行 N 次 insert 在 最 坏 情形 下 花费 0(N) 的 时 间 。 
b. 给 出 一 个 算法 来 建立 有 N 个 元 素 的 二 项 队列 , 在 元 素 间 最 多 使 用 NN -1 次 比较 。 


“ec. 提出 一 个 算法 , VA OCM + log N) 最 坏 情形 运行 时 间 将 M 个 节点 插入 到 IN 个 元 素 的 二 项 队列 中 。 


证 明 该 算法 的 界 。 
写 出 一 个 高 效 的 例 程 使 用 二 项 队列 来 完成 insert 操作 。 不 要 调用 merge 方法 。 
对 于 二 项 队列 : 
a. 如果 没 有 树 留 在 H, PA carry HHA null, 则 修改 merge 例 程 以 终止 合并 。 
b. 修改 merge 使 得 较 小 的 队列 总 被 合并 到 较 大 的 队列 中 。 
假设 我 们 将 二 项 队列 扩充 为 允许 每 个 结构 同一 高 度 至 多 有 两 棵 树 。 我 们 能 否 在 其 他 操作 保留 为 
O(log NN) 时 得 到 插入 为 0(1) 的 最 坏 情形 时 间 ? 
设 有 许多 盒子 , Pra TERA EE C, MAM h, L, b, iy PHB w,, w, Wa，…， 
wy。 现 在 想 要 把 所 有 的 物品 包装 起 来 , 但 任 一 盒子 都 不 能 放置 超过 其 容量 的 重 物 , 而 且 要 使 用 
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尽量 少 的 盒子 。 例 如 , 车 C=5, 物品 分 别 重 2, 2, 3, 3, 则 我 们 可 用 两 个 盒子 解决 该 问题 。 
一 般 说 来 , 这 个 问题 很 困难 , 尚 不 知 有 高 效 的 解决 方案 。 编 写 程序 高 效 地 实现 下 列 各 近似 解法 : 
“a. 将 重 物 放 和 能够 承受 其 重量 的 第 一 个 盒子 内 ( 如 果 没 有 盒子 拥有 足够 的 容量 就 开辟 一 个 新 的 
BF) (该 方法 以 及 后 面 所 有 的 方法 都 将 得 出 3 个 盒子 , 这 不 是 最 优 的 结果 ) 。 
b. 把 重 物 放 入 对 其 有 最 大 空间 的 盒子 内 。 
c. 把 重 物 放 和 人 能 够 容纳 它 而 又 不 过 载 的 装填 得 最 满 的 盒子 中 。 
Ud. 这 些 方法 有 通过 将 重 物 按 重 量 预 先 排 序 而 功能 得 到 增强 的 吗 ? 
6.38 ” 设 我 们 想 要 将 操作 decreaseAllKeys(A) 添加 到 堆 的 指令 系统 中 。 该 操作 的 结果 是 堆 中 所 有 
的 关键 字 都 将 它们 的 值 减少 量 A。 对 于 你 所 选择 的 堆 的 实现 方法 ,解释 所 作 的 必要 的 修改 使 得 
所 有 其 他 操作 都 保持 它们 的 运行 时 间 而 decreaseAllKeys 以 0(1) 运 行 。 
6.39 两 个 选择 算法 中 哪个 具有 更 好 的 时 间 界 ? 
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在 这 一 章 , 我 们 讨论 元 素数 组 的 排序 问题 。 为 简单 起 见 , 假设 例子 中 的 数组 只 包含 整数 ， 
当然 我 们 的 程序 也 允许 更 一 般 的 对 象 。 对 于 本 章 的 大 部 分 内 容 , 我 们 还 假设 整个 排序 工作 能 够 
在 主 存 中 完成 , 因此 , 元 素 的 个 数 相 对 来 说 比较 小 (小 于 几 百 万 ) 。 当 然 , 不 能 在 主 存 中 完成 而 
必须 在 磁盘 或 磁带 上 完成 的 排序 也 相当 重要 。 这 种 类 型 的 排序 叫 作 外 部 排序 (external sorting) , 
将 在 本 章 末 尾 进 行 讨论 。 

我 们 对 内 部 排序 的 考查 将 指出 : 

e 存在 几 种 容易 的 算法 以 O(N ) 完 成 排序 , 如 插入 排序 。 

e 有 一 种 算法 叫 作 希 尔 排序 (Sellsort)， 它 编程 非常 简单 , 以 o( ) 运 行 , 并 在 实践 中 很 有 效 ， 

e 存在 一 些 稍微 复杂 的 OCN log N) 的 排序 算法 。 

e 任何 通用 的 排序 算法 均 需要 ON log N) KEH. 

本 章 的 其 余部 分 将 描述 和 分 析 各 种 排序 算法 。 这 些 算法 包含 一 些 有 趣 的 和 重要 的 代码 优化 
和 算法 设计 思想 。 排 序 也 是 使 得 分 析 能 够 得 以 精确 地 进行 的 范例 。 预 先 说 明 , 在 适当 的 时 机 ， 
我 们 将 尽 可 能 多 地 做 一 些 分 析 。 


7.1 预备 知识 


我 们 描述 的 算法 都 将 是 可 以 互 换 的 。 每 个 算法 都 将 接收 包含 一 些 元 素 的 数组 ; 假设 所 有 的 
数组 位 置 都 包含 要 被 排序 的 数据 。 我 们 还 假设 是 传递 到 排序 例 程 的 元 素 的 个 数 。 

正如 1.4 节 所 描述 的 , 被 排序 的 对 象 属于 Comparable 类 型 。 因 此 我 们 使 用 CompareTo 
方法 对 输入 数据 施加 相 容 的 排序 。 除 (引用 ) 赋 值 运算 外 , 这 是 仅 有 的 允许 对 输入 数据 进行 的 操 
作 。 在 这 些 条 件 下 的 排序 叫 作 基于 比较 的 排序 ( comparison-based sorting) 。 在 默认 的 排序 没有 或 
不 可 接受 的 情况 下 , 我 们 很 容易 用 Comparator 来 重 写 排序 算法 。 


7.2， 插 入 排序 


7.2.1 算法 

最 简单 的 排序 算法 之 一 是 插入 排序 (insertion sort)。 插 入 排序 由 NN — 1 趟 排序 组 成 。 对 于 
p=1 到 N-l 趟 , 插入 排序 保证 从 位 置 0 到 位 置 p 上 的 元 素 为 已 排序 状态 。 插 入 排序 利用 了 这 样 
的 事实 : 已 知 位 置 0 SIRE p -1. 上 的 元 素 已 经 处 于 排 过 序 的 状态 。 图 7-1 显示 一 个 数组 样 例 在 
每 一 趟 插入 排序 后 的 情况 。 


原始 数组 | 34 aln] 移动 的 位 置 
p=1 趟 之 后 
p=2 趟 之 后 








p=3 趟 之 后 
p=4 趟 之 后 
p=5 趟 之 后 











7-1 每 趟 后 的 插 和 排序 


图 7-1 表达 了 一 般 的 策略 。 在 第 p 躺 , 我 们 将 位 置 p 上 的 元 素 向 左 移动 ， 直 到 它 在 前 p +1 
个 元 素 中 的 正确 位 置 被 找到 的 地 方 。 图 7-2 中 的 程序 实现 这 种 策略 。 第 12 行 到 第 15 行 实现 数 
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据 移动 而 没有 明显 地 使 用 交换 。 位 置 p 上 的 元 素 储存 于 tmp, 而 (在 位 置 p 之 前 ) 所 有 更 大 的 元 
素 都 被 向 右 移动 一 个 位 置 。 然 后 tmp 被 置 于 正确 的 位 置 上 。 这 是 与 在 二 叉 堆 实现 时 所 用 到 的 
相同 技巧 。 


/** 

* Simple insertion sort. 

* @param a an array of Comparable items. 

*/ 

public static «AnyType extends Comparable<? super AnyType>> 
void insertionSort( AnyType [] a ) 

{ 

int j; 


for( int p = 1; p < a.length; p+ ) 
{ 
AnyType tmp = a[ p ]; 
for( j = p; j > 0 && tmp.compareTo( a[ j - 1] ) < 0; j-- ) 
al j] =aLj-11]; 
a[ j ] = tmp; 
} 


l 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
I3 
16 
17 





图 7-2 插入 排序 例 程 


7.2.2 插入 排序 的 分 析 

由 于 榜 套 循环 的 每 一 个 都 花费 N 次 迭代 , 因此 插入 排序 为 OCT) , 而且 这 个 界 是 精确 的 ， 
因为 以 反 序 的 输入 可 以 达到 该 界 。 精确 计算 指出 , 图 7-2 内 循环 中 元 素 的 比较 次 数 对 于 p 的 每 
个 值 最 多 是 p+1 次 。 对 所 有 的 p 求 和 得 到 总 数 为 


Di=2+3+4+.…+N= O(N) 
2 


男 一 方面 , 如果 输入 数据 已 预先 排序 , 那么 运行 时 间 为 0(N) ,因为 内 层 for 循环 的 检 
测 总 是 立即 判定 不 成 立 而 终止 。 SES E, 如 果 输 入 几乎 被 排序 (该 术语 将 在 下 一 节 更 严格 地 定 
X), 那么 插入 排序 将 运行 得 很 快 。 由 于 这 种 变化 差别 很 大 , 因此 值得 我 们 去 分 析 该 算法 平均 情 
形 的 行为 。 实 际 上 , 和 各 种 其 他 排序 算法 一 样 , 插入 排序 的 平均 情形 也 是 @(N ) , 详 见 下 节 的 
分 析 。 


7.3 一 些 简单 排序 算法 的 下 界 


成 员 是 数 的 数组 的 逆序 (inversion) 即 具有 性 质 i<j 但 a[i] >a[j] 的 序 偶 (a[i] ，a[j])。 在 
上 节 的 例子 中 , 输入 数据 34, 8,64, 51, 32, 21 有 9 个 逆序 , 即 (34, 8), (34, 32), (34, 21), 
(64,51), (64,32), (64,21), (51,32), (51, 21) 以 及 (32, 21) 。 注 意 , 这 正好 是 需要 由 插 
入 排序 ( 隐 含 ) 执 行 的 交换 次 数 。 情 况 总 是 这 样 , 因为 交换 两 个 不 按 顺 序 排列 的 相 邻 元 素 恰好 消 
BRS EFE, 而 一 个 排 过 序 的 数组 没有 逆序 。 由 于 算法 中 还 有 O(NW) 量 的 其 他 工作 , 因此 插入 
排序 的 运行 时 间 是 0(1+N), 其 中 7 为 原始 数组 中 的 逆序 数 。 于 是 , AP ACE O(N) , 则 插入 
排序 以 线性 时 间 运 行 。 

可 以 通过 计算 排列 中 的 平均 逆序 数 得 出 插入 排序 平均 运行 时 间 的 精确 的 界 。 如 往常 一 样 ， 
定义 平均 是 一 个 困难 的 课题 。 我 们 将 假设 不 存在 重复 元 素 ( 如 果 我 们 允许 重复 , 那么 甚至 连 重 
复 的 平均 次 数 究竟 是 什么 都 不 清楚 ) 。 利 用 该 假设 , 可 设 输入 数据 是 前 N 个 整数 的 某 个 排列 ( 因 
为 只 有 相对 顺序 才 是 重要 的 ) 并 设 所 有 的 排列 都 是 等 可 能 的 。 在 这 些 假设 下 , 我 们 有 如 下 定理 : 

定理 7.1 WV 个 互 异 数 的 数组 的 平均 闭 序 数 是 WONW-1)/4。 
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WEBB: 

对 于 元 素 的 任意 表 列 L, 考虑 其 反 序 表 列 L,。 上 例 中 的 反 序 表 列 是 21, 32, 51, 64, 8, 34. 
考虑 该 表 列 中 任意 两 个 元 素 的 序 偶 (x, y), y <x。 显 然 , ERE LA L, 的 一 个 中 该 序 偶 表 示 一 
个 逆序 。 在 表 列 上 和 它 的 反 序 表 列 L, 中 序 偶 的 总 个 数 为 WIN -1)/2。 因 此 , 平均 表 列 有 该 量 的 
一 半 , Bl N(N - 1)/4 个 逆序 。 口 

这 个 定理 意味 着 插入 排序 平均 是 二 次 的 , 同时 也 提供 了 只 交换 相 邻 元 素 的 任何 算法 的 一 个 
很 强 的 下 界 。 

定理 7.2 通过 交换 相 邻 元 素 进行 排序 的 任何 算法 平均 都 需要 CIN? ) 时 间 。 

WERA: 

初始 的 平均 逆序 数 是 N(N -1)4= AN), 而 每 次 交换 只 减少 一 个 逆序 , 因此 需要 AN ) 
次 交换 。 口 

这 是 证 明 下 界 的 一 个 例子 , 它 不 仅 对 隐 含 地 执行 相 邻 元 素 交换 的 插入 排序 有 效 ， 而且 对 诸 
如 冒 泡 排序 和 选择 排序 等 其 他 一 些 简 单 算法 也 是 有 效 的 , 不 过 这 些 算法 我 们 将 不 在 这 里 描述 。 
事实 上 , 它 对 一 整 类 只 进行 相 邻 元 素 的 交换 的 排序 算法 , 包括 那些 未 被 发 现 的 算法 , 都 是 有 效 
的 。 正 因为 如 此 , 这 个 证 明 在 经 验 上 是 不 能 被 认可 的 。 虽 然 这 个 下 界 的 证 明 非 常 简单 , 但 是 一 
般 说 来 证 明 下 界 要 比 证 明 上 界 复 杂 得 多 , 在 某 些 情 形 下 甚至 有 些 像 魔术 。 

这 个 下 界 告 诉 我 们 , 为 了 使 一 个 排序 算法 以 亚 二 次 (subquadratic) 或 O(N ) 时 间 运 行 , 必须 
执行 一 些 比较 , 特别 是 要 对 相距 较 远 的 元 素 进 行 交换 。 一 个 排序 算法 通过 删除 逆序 得 以 向 前 进 
行 , 而 为 了 有 效 地 进行 , 它 必须 使 每 次 交换 删除 不 止 一 个 逆序 。 


7.4 希 尔 排序 


希 尔 排序 (Shellsort) 的 名 称 源 于 它 的 发 明 者 Donald Shell, 该 算法 是 冲破 二 次 时 间 屏 障 的 第 
一 批 算 法 之 一 , 不 过 , 直到 它 最 初 被 发 现 的 若干 年 后 才 证 明了 它 的 亚 二 次 时 间 界 。 正 如 上 节 所 
提 到 的 , 它 通 过 比较 相距 一 定 间 隔 的 元 素来 工作 ; 各 趟 比较 所 用 的 距离 随 着 算法 的 进行 而 减 小 ， 
直到 只 比较 相 邻 元 素 的 最 后 一 趟 排序 为 止 。 由 于 这 个 原因 , 希 尔 排 序 有 时 也 叫 作 缩减 增 量 排序 
(diminishing increment sort) 。 

硕 尔 排序 使 用 一 个 序列 六 , h,,... ,hh,, 叫 作 增 量 序列 (increment sequence), HE h, =1, 任 
何 增 量 序列 都 是 可 行 的 , 不 过 , 有 些 增 量 序列 比 另外 一 些 增 量 序列 更 好 (后 面 我 们 将 讨论 这 个 问 
题 )。 在 使 用 增 量 h 的 一 趟 排序 之 后 , 对 于 每 一 个 i 我 们 都 有 ali] Sali +h, ] EAR EREA 
意义 的 ) AH h, 的 元 素 都 被 排序 。 此 时 称 文件 是 h, 排序 的 (h-sorted)。 例 如 。 图 7-3 显示 
在 几 趟 希 尔 排序 后 数组 的 情况 。 希 尔 排序 的 一 个 重要 性 质 是 (我 们 只 叙述 而 不 证 明 ), — h, 排序 
的 文件 (然后 将 是 ,排序 的 ) 保 持 它 的 排序 性 。 事 实 上 , 假如 情况 不 是 这 样 的 话 , 那么 该 算法 
很 可 能 也 就 没什么 价值 了 ， 因为 前 面 各 趟 排序 的 成 果 就 会 被 后 面 各 趟 排序 给 打 乱 。 


Cin Ts su [oe Pa p er Tos o T os Ts 





sae 35 | 17 | 11 | 28 41 | 75 
3 排序 后 
1 排序 后 


图 7-3 希 尔 排序 每 趟 之 后 的 情况 





h, 排序 的 一 般 做 法 是 , SEE hu, hy td, oe, N-1 中 的 每 一 个 位 置 i, 把 其 上 的 元 素 放 到 i, 
i 一 hh ,i 一 2h,，… 中 的 正确 位 置 上 。 虽 然 这 并 不 影响 最 终结 果 , 但 通过 仔细 观察 可 以 发 现 , — 
h, 排序 的 作用 就 是 对 个 独立 的 子 数组 执行 一 次 插入 排序 。 当 我 们 分 析 希 尔 排 序 的 运行 时 间 
时 , 这 个 观察 结果 将 是 很 重要 的 。 

增 量 序列 的 一 个 流行 (但 是 不 好 ) 的 选择 是 使 用 Shell 建议 的 序列 : h, =LM2 Hifl h, =LA,,,/2 J 
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(这 不 是 用 在 图 7-3 的 例子 中 的 序列 ) 。 图 7-4 包含 一 个 使 用 该 序列 实现 希 尔 排序 的 方法 。 后 面 
我 们 将 看 到 , 存在 一 些 递增 的 序列 , 它们 对 该 算法 的 运行 时 间 给 出 了 重要 的 改进 ; 即使 是 一 
小 的 改变 都 可 能 严重 影响 算法 的 性 能 ( 见 练习 7. 10) 。 





y /** 

2 * Shellsort, using Shell's (poor) increments. 

3 * @param a an array of Comparable items. 

4 x/ 

5 public static «AnyType extends Comparable<? super AnyType>> 
6 void shellsort( AnyType [ ] a ) 

7 { 

8 int j; 

9 

10 for( int gap = a.length / 2; gap > 0; gap /= 2 ) 

11 for( int i = gap; i < a.length; i++ ) 

12 ( 

13 AnyType tmp = a[ i ]; 

14 for( j = i; j >= gap && 

IS tmp.compareTo( a[ j - gap ] ) < 0; j -= gap ) 
16 alj] =al j - gap]; 

17 a[ j ] = tmp; 


18 } 





图 7-4 使 用 希 尔 增 量 的 希 尔 排序 例 程 (可 能 有 更 好 的 增 量 ) 


图 7-4 中 的 程序 以 与 我 们 在 插入 排序 实现 方法 中 相同 的 方式 避免 明显 地 使 用 交换 。 
希 尔 排 序 的 最 坏 情 形 分 析 

虽然 希 尔 排 序 编程 简单 , 但 是 , 其 运行 时 间 的 分 析 则 完全 是 另外 一 回 事 。 希 尔 排 序 的 运行 时 
间 依 赖 于 增 量 序列 的 选择 , 而 证 明 可 能 相当 复杂 。 希 尔 排序 的 平均 情形 分 析 , 除 最 平凡 的 一 些 增 
量 序列 外 , 是 一 个 长 期 未 解决 的 问题 。 我 们 将 对 两 个 特别 的 增 量 序列 证 明 最 坏 情形 的 精确 的 界 。 

定理 7.3 使 用 希 尔 增 量 时 希 尔 排序 的 最 坏 情 形 运 行 时 间 为 9(N )。 

WEBB: 

证 明 不 仅 需要 指出 最 坏 情 形 运 行 时 间 的 上 界 , rf ELA s 22 E HA EE LEE A Sz ES 1E f 4E 
HON ) 时 间 运 行 。 首 先 通 过 构造 一 个 坏 情形 来 证 明 下 界 。 我 们 首先 选择 是 2 DES xxi 
得 除 最 后 一 个 增 量 是 1 外 所 有 的 增 量 都 是 偶数 。 现 在 , 我 们 给 出 一 个 数组 作为 输入 , 它 的 偶数 
位 置 上 有 N/2 个 同 为 最 大 的 数 ， 而 在 奇数 位 置 上 有 N/2 个 同 为 最 小 的 数 (对 该 证 明 , 第 一 个 位 
置 是 位 置 1) 。 由 于 除 最 后 一 个 增 量 外 所 有 的 增 量 都 是 偶数 , 因此 ， 当 进行 最 后 一 趟 排序 前 ， 
N/2 个 最 大 的 元 素 仍 然 在 偶数 位 置 上 , 而 N/2 个 最 小 的 元 素 也 还 是 在 奇数 位 置 上 。 于 是 , 在 最 
后 一 趟 排序 开始 之 前 第 ;个 最 小 的 数 (i<N2) 在 位 置 2-1 上 。 将 第 :个 元 素 恢复 到 其 正确 位 
置 需要 在 数组 中 移动 ?1 个 间隔 。 这 样 , 仅仅 将 N/2 个 最 小 的 元 素 放 到 正确 的 位 置 上 就 需要 至 


bJ i-1=0 (CN ) 的 工作 。 作 为 一 个 例子 , 图 7-5 显示 一 个 N=16 时 的 坏 ( 但 不 是 最 坏 ) 的 输 


Ass 在 2- 排序 后 的 逆序 数 一 直 保持 恰好 为 1+2+3+4+5+6+7=28; 因此 , 最 后 一 趟 排序 将 
花费 相当 多 的 时 间 。 

现在 我 们 证 明 上 界 OOM ) 以 结束 本 证 明 。 前 面 我 们 已 观察 到 , 带 有 增 量 h, 的 一 趟 排序 由 h 
次 关于 Mh, 个 元 素 的 插入 排序 组 成 。 由 于 插入 排序 是 二 次 的 , 因此 一 趟 排序 总 的 开销 是 0(h (N 


h)?) =0CN/h)。 对 所 有 各 趟 排序 求 和 则 给 出 总 的 界 为 0( Y, Mh) =OCN Y, Vh). FOR 
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这 些 增 量 形成 一 个 几何 级 数 , 其 公 比 为 2, 而 该 级 数 中 的 最 大 项 是 hh =1, 因此 ， Y I/h; <2. 
于 是 , 我 们 得 到 总 的 界 O(N ) 。 口 














1 排序 后 





图 7-5 具有 和 希 尔 增 量 的 坏 情 形 希 尔 排 序 ( 位 置 编号 从 1 到 16) 


希 尔 增 量 的 问题 在 于 , 这 些 增 量 对 未 必 是 互 素 的 , 因此 较 小 的 增 量 可 能 影响 很 小 。Hibbard 
提出 一 个 稍微 不 同 的 增 量 序列 , 它 在 实践 中 (并 且 理 论 上 ) 给 出 更 好 的 结果 。 他 的 增 量 形 如 1， 
3,7, …, 2 -1。 虽 然 这 些 增 量 几乎 是 相同 的 , 但 关键 的 区 别 是 相 邻 的 增 量 没有 公 因 子 。 现 在 
我 们 就 来 分 析 使 用 这 个 增 量 序列 的 希 尔 排 序 的 最 坏 情形 运行 时 间 , 这 个 证 明 相当 复杂 。 

定理 7.4 使 用 Hibbard 增 量 的 希 尔 排 序 的 最 坏 情形 运行 时 间 为 6 (NT) s 

WEBB : 

3E] UE] EA, dE PEAS EBA ERG, XX uE I o SE A BLE ( additive number 
theory ) 中 某 些 众所周知 的 结果 。 本 章 结尾 提供 了 这 些 结果 的 参考 资料 。 

和 前 面 一 样 , 对 于 上 界 , 我 们 还 是 计算 每 一 趟 排序 的 运行 时 间 的 界 ， 然 后 对 各 趟 求 和 。 对 
FABLE h, > N' 的 增 量 , 我 们 将 使 用 前 一 定理 得 到 的 界 O(NT7h,) 。 虽 然 这 个 界 对 于 其 他 增 量 也 
是 成 立 的 , 但 是 它 太 大 , 用 不 上 。 直 观 地 看 , 我 们 必须 利用 这 个 增 量 序列 是 特殊 的 这 样 一 个 事 
实 。 我 们 需要 证 明 的 是 , 对 于 位 置 p 上 的 任意 元 素 a[p] , 当 要 执行 心 -排序 时 ,只 有 几 个 元 素 在 
位 置 p 的 左边 且 大 于 a[p]。 

当 对 输入 数组 进行 -排序 时 , 我 们 知道 它 已 经 是 久 ,,,- 排 序 和 ,,,- 排 序 的 了 。 在 h- 排 序 以 
Bi, ZEME p 和 p -i 上 的 两 个 元 素 , HP ispo WIR id hu Mh, WM, 那么 显然 
a[ p -i] «al p] AMIE, WMR i HARK hoa F h,o WREE OIIE), 那么 
EA alp-i] <alp]. TEX—A BET, 当 进 行 3- 排 序 时 , 文件 已 经 是 7- 排 序 和 15- 排 序 的 了 。52 
可 以 表 为 7 和 15 的 线性 组 合 : 52 =1 x7 +3 x15。 因 此 , a[100] 不 可 能 大 于 a[l152], 因为 
a[ 100] <a[107] <a[ 122] <a[ 137] <a[ 152], 

现在 , ha =2h,,, +1, Ath, Ah, RABAT. TEXX PIE PF, 可 以 证 明 , 至 少 和 
(h,,, 71) (h,,, - 1) 28h; +4h, 一 样 大 的 所 有 整数 都 可 以 表示 为 h,,, 和 i,, 的 线性 组 合 ( 见 本 章 
末尾 的 参考 文献 ) 。 

这 就 告诉 我 们 , 最 内 层 for 循环 对 于 这 些 Nh 位 置 上 的 每 一 个 最 多 执行 8h, +4 = 0(h) 
次 。 于 是 我 们 得 到 每 趟 的 界 0( Nh, ) o 

利用 大 约 一 半 的 增 量 满足 h < VN 的 事实 并 假设 1 是 偶数 , 那么 总 的 运行 时 间 为 : 


o( Š Nh, ^ Y N'/7h,) = ONS h, +N Y 1/h,) 
因为 两 个 和 都 是 几何 级 数 , 并 且 ha = CIN) , 所 以 上 式 简化 为 : 


=0(Nha) «o( -) «ocv?» 口 
使 用 Hibbard 增 量 的 希 尔 排 序 平均 情形 运行 时 间 基 于 模拟 的 结果 被 认为 是 0(N”), 但 是 没 
有 人 能 够 证 明 该 结果 。Pratt 证 明了 @(N”) 的 界 适用 于 广泛 的 增 量 序列 。 
Sedgewick 提出 了 几 种 增 量 序列 , 其 最 坏 情形 运行 时 间 ( 也 是 可 以 达到 的 ) 为 O(N”)。 对 于 
这 些 增 量 序列 的 平均 运行 时 间 猜 测 为 0(N”)。 经 验 研 究 指 出 , 在 实践 中 这 些 序 列 的 运行 要 比 
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Hibbard 的 好 得 多 , 其 中 最 好 的 是 序列 |1, 5, 19, 41, 109，…| ,该 序列 中 的 项 或 者 是 9 .4'- 
9-2 +1 的 形式 , 或 者 是 4 -3 2 +1 的 形式 。 该 算法 通过 将 这 些 值 放 到 一 个 数组 中 最 容易 实 
Jb. 虽然 有 可 能 存在 某 个 增 量 序列 使 得 能 够 对 希 尔 排 序 的 运行 时 间 给 出 重大 改进 , 但 是 ,这 个 
增 量 序列 在 实践 中 还 是 最 为 人 们 称道 的 。 

关于 希 尔 排 序 还 有 几 个 其 他 结果 , 它们 需要 数论 和 组 合 数学 中 一 些 困难 的 定理 而 且 主要 是 
在 理论 上 有 用 。 和 希 尔 排序 是 算法 非常 简单 上 且 又 具有 极其 复杂 的 分 析 的 一 个 好 例子 。 

和 希 尔 排序 的 性 能 在 实践 中 是 完全 可 以 接受 的 , 即使 是 对 于 数 以 万 计 的 N 仍 是 如 此 。 编 程 的 
简单 特点 使 得 它 成 为 对 适度 地 大 量 的 输入 数据 经 常 选用 的 算法 。 


7.5 HHF 4 


正如 第 6 章 提 到 的 , 优先 队列 可 以 用 于 以 OCN log N) 时 间 的 排序 。 基 于 该 思想 的 算法 叫 作 
堆 排序 (heapsort) ， 它 给 出 了 我 们 至 今 所 见 到 的 最 佳 的 大 0 运行 时 间 。 

回忆 在 第 6 章 建立 N 个 元 素 的 二 叉 堆 的 基本 策略 ,这 个 阶段 花费 0(N) 时 间 。 然 后 我 们 执 
47 NX deleteMin 操作 。 按 照 顺序 , 最 小 的 元 素 先 离开 堆 。 通 过 将 这 些 元 素 记 录 到 第 二 个 数 
组 然后 再 将 数组 拷贝 回来 ,得 到 N 个 元 素 的 排序 。 由 于 每 个 aeleteMin 花费 时 间 O(log N), 
因此 总 的 运行 时 间 是 O(N log N) 。 

该 算法 的 主要 问题 在 于 它 使 用 了 一 个 附加 的 数组 。 因 此 , 存储 需求 增加 一 倍 。 在 某 些 实例 
中 这 可 能 是 个 问题 。 注 意 , 将 第 二 个 数组 拷贝 回 第 一 个 数组 的 附加 时 间 消 耗 只 是 OCN), 这 不 
可 能 显著 影响 运行 时 间 。 这 里 的 问题 是 空间 的 问题 。 

回避 使 用 第 二 个 数组 的 聪明 的 方法 是 利用 这 样 的 事实 : 在 每 次 deleteMin 之 后 , 堆 缩小 1。 
因此 , 位 于 堆 中 最 后 的 单元 可 以 用 来 存放 刚刚 删 去 的 元 素 。 例 如 , 设 我 们 有 一 个 堆 , 它 含 有 6 个 元 
素 。 第 一 次 deleteMin 产生 个 w 。 现 在 该 堆 只 有 5 个 元 素 , 因此 我 们 可 以 把 a 放 在 位 置 6 上 。 
下 一 次 deleteMin 产生 个 a,, 由 于 该 堆 现 在 只 有 4 个 元 素 , 因此 我 们 把 a, 放 在 位 置 5 Eo 

使 用 这 种 策略 , 在 最 后 一 次 deleteMin JH, 该 数组 将 以 递减 的 顺序 包含 这 些 元 素 。 如 果 
我 们 想 要 这 些 元 素 排 成 更 典型 的 递增 顺序 , 那么 可 以 改变 有 序 的 特性 使 得 父亲 的 关键 字 的 值 大 
于 儿子 的 关键 字 的 值 。 这 样 就 得 到 ( max) 堆 。 

在 我 们 的 实现 方法 中 将 使 用 一 个 (max) 堆 , 但 由 于 速度 的 原因 避免 了 实际 的 ADT。 照 通常 
的 习惯 , 每 一 件 事 都 是 在 数组 中 完成 的 。 第 一 步 以 线性 时 间 建 立 一 个 堆 。 然 后 通过 每 次 将 堆 中 
的 最 后 元 素 与 第 一 个 元 素 交换 , 执行 NV -1 次 deleteMax 操作 , 每 次 将 堆 的 大 小 缩减 1 并 进行 
下 滤 。 当 算法 终止 时 , 数组 则 以 排 好 的 顺序 包含 这 些 元 素 。 例 如 , 考虑 输入 序列 31, 41, 59, 
26, 53, 58, 97。 最 后 得 到 的 堆 如 图 7-6 所 示 。 

图 7-7 显示 在 第 一 次 deleteMax 之 后 的 堆 。 从 图 中 看 出 , 堆 中 的 最 后 元 素 是 31; 97 已 经 
被 放 在 堆 数组 的 从 技术 上 说 不 再 属于 该 堆 的 部 分 上 。 在 此 后 的 5 次 deleteMax 操作 之 后 , 该 
堆 实 际 上 只 有 一 个 元 素 , 而 在 堆 数 组 中 留 下 的 元 素 将 是 排序 后 的 顺序 。 





97 
[ [s9]s3]se]26farfarfor] | [| | 
Ü 12 3 4 $» 6 7T 8$ 9 10 


图 7-6 在 buildHeap 阶段 之 后 的 (Max) 堆 图 7-7 在 第 一 次 deleteMax 后 的 堆 
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执行 堆 排序 的 代码 在 图 7-8 中 给 出 。 稍 微 有 些 复杂 的 是 , 这 里 不 像 二 又 堆 , 二 又 堆 时 的 数 
据 在 数组 下 标 1 处 开始 , 而 此 处 堆 排 序 的 数组 包含 位 置 0 处 的 数据 。 因 此 , 这 时 的 程序 与 二 又 
堆 的 代码 有 些 不 同 , 不 过 变化 很 小 。 


/** 
* Internal method for heapsort. 
* (param i the index of an item in the heap. 
* Greturn the index of the left child. 
*/ 
private static int leftChild( int i ) 
{ 


CON Oy Ui -h Go ho — 


return 2 * i + 1; 


} 
/** 


* Internal method for heapsort that is used in deleteMax and buildHeap. 
* @param a an array of Comparable items. 
* @int i the position from which to percolate down. 
* Gint n the logical size of the binary heap. 
*/ 
private static <AnyType extends Comparable<? super AnyType>> 
void percDown( AnyType [ ] a, int i, int n ) 
{ 
int child; 
AnyType tmp; 


for( tmp = a[ i ]; leftChild( i ) < n; i = child ) 
{ 
child = leftChild( i ); 
if( child != n - 1 && a[ child ].compareTo( a[ child * 1] ) <0) 
child++; 
if( tmp.compareTo( a[ child] ) « 0) 
al i] = a[ child ]; 
else 
break; 
} 
a[ i] = tmp; 


/xx 
* Standard heapsort. 
* @param a an array of Comparable items. 
x/ | 
public static «AnyType extends Comparable«? super AnyType>> 
void heapsort( AnyType [ ] a ) 
{ 


for( int i = a.length / 2 - 1; i >= 0; i-- ) /* buildHeap */ 
percDown( a, i, a.length ); 
for( int i = a.length - 1; i > 0; i-- ) 


{ 


swapReferences( a, 0, i ); /* deleteMax */ 
percDown( a, 0, i ); 





图 7-8 MEHET 
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堆 排 序 的 分 析 

我 们 在 第 6 章 已 经 看 到 , 第 一 阶段 构建 堆 最 多 用 到 2N 次 比较 。 在 第 二 阶段 , 第 i 次 
deleteMax 最 多 用 到 2| log i 次 比较 , 总 数 最 多 2N log N -0(N) 次 比较 ( 设 N=2)。 因 此 , 在 
最 坏 的 情形 下 堆 排 序 最 多 使 用 2N log N- 0(N) 次 比较 。 练 习 7.13 要 求证 明 对 于 所 有 的 
deleteMax 操作 有 可 能 同时 达到 它们 的 最 坏 情 形 。 

经 验 表 明 , 堆 排序 是 一 个 非常 稳定 的 算法 : 它 使 用 的 比较 平均 只 比 最 坏 情形 界 指出 的 略 
少 。 多 年 来 , 还 没有 人 能 够 指出 堆 排 序 平均 运行 时 间 的 非 平凡 界 。 似 乎 问题 在 于 连续 的 
deleteMax 操作 破坏 了 堆 的 随机 性 , 使 得 概率 论证 非常 复杂 。 最 后 , 另 一 种 处 理 方法 终于 被 证 明 
是 成 功 的 。 

定理 7.5 对 入 个 互 异 项 的 随机 排列 进行 堆 排序 所 用 比较 的 平均 次 数 为 2Nlog N- OCN log 
log VN). 

WERA: 

构建 堆 的 阶段 平均 使 用 @(N) 次 比较 , 因此 我 们 只 需要 证 明 第 二 阶段 的 界 。 设 有 11, 2，…， 
NI 的 一 个 排列 。 

设 第 i 次 deleteMax 将 根 元 素 向 下 推 低 d; 层 。 此 时 它 使 用 了 24, 次 比较 。 对 于 对 任意 的 
输入 数据 的 堆 排序 , 存在 一 个 开销 序列 (cost sequence) D: d,, d,,..., dy, 它 确定 了 第 二 阶段 的 


开销 , 该 开销 由 M, = ba d, 给 出 ; 因此 所 使 用 的 比较 次 数 是 2Mo。 


令 几 N) 是 W 项 的 堆 的 个 数 。 可 以 证 明 (练习 7.53) , fN) > (N/(4e))", 其 中 ,e=2.71828…。 
我 们 将 证 明 , 只 有 这 些 堆 中 指数 上 很 小 的 部 分 (特别 是 (W16) " ) 的 开销 小 于 MW = N(log N - 
log log N -4) 。 当 该 结论 得 证 时 可 以 推出 Mo 的 平均 值 至 少 是 W 减 去 大 小 为 o(1) 的 一 项 , 这 样 ， 
比较 的 平均 次 数 至 少 是 2M。 因 此 , 我 们 的 基本 目标 则 是 证 明 存在 很 少 的 具有 小 的 开销 序列 的 堆 。 

因为 第 d, 层 上 最 多 有 2“ 个 节点 ; 所 以 对 于 任意 的 d, 存在 根 元 素 可 能 去 到 的 2“ 个 可 能 的 位 
置 。 于 是 , 对 任意 的 序列 D, 对 应 deleteMax 的 互 异 序列 的 个 数 最 多 是 

$, S27 
简单 的 代数 处 理 表 明 , 对 一 个 给 定 的 序列 D 
S, 22M 

AA d, 可 取 1 Fl log Nj 之 间 的 任 一 值 , 所 以 最 多 存在 (log N)” 个 可 能 的 序列 D。 由 此 
可 知 , 需要 花费 开销 恰好 为 M 的 互 异 deleteMax 序列 的 个 数 最 多 是 总 开销 为 M 的 开销 序列 的 
个 数 乘 以 每 个 这 种 开销 序列 的 deleteMax 序列 的 个 数 。 这 样 就 立刻 得 到 界 (log N) "2". 

开销 序列 小 于 M 的 堆 的 总 数 最 多 为 


x (log N)"2' < (log N) "2" 


如 果 我 们 选择 MM=N(log N -log log N -4) , 那么 开销 序列 小 于 MM 的 堆 的 个 数 最 多 为 (W16) " , 
根据 我 们 前 面 的 评述 , 定理 得 证 。 口 

通过 更 复杂 的 论述 可 以 证 明 , 堆 排 序 总 是 使 用 至 少 N log N - O(CN) 次 比较 ,而 且 存在 输入 
数据 能 够 达到 这 个 界 。 似 乎 平均 情形 也 应 该 是 2N log N - O(N) 次 比较 (而 不 是 定理 7.5 中 非 线 
性 的 第 二 项 ) ; 这 是 否 能 够 证 明 ( 甚 至 是 否 成 立 ) 还 是 个 未 解决 的 问题 。 


7.6 归并 排序 


现在 我 们 把 注意 力 转 到 归并 排序 (mergesort) 。 归 并 排序 以 O(N log N) 最 坏 情形 时 间 运 行 ， 
而 所 使 用 的 比较 次 数 几乎 是 最 优 的 。 它 是 递归 算法 一 个 好 的 实例 。 

这 个 算法 中 基本 的 操作 是 合并 两 个 已 排序 的 表 。 因 为 这 两 个 表 是 已 排序 的 ,所 以 若 将 输出 
放 到 第 3 个 表 中 , 则 该 算法 可 以 通过 对 输入 数据 一 趟 排序 来 完成 。 基 本 的 合并 算法 是 取 两 个 输 
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ARGHA Fl B, 一 个 输出 数组 C, 以 及 3 个 计数 器 Actr, Betr, Cetr, 它们 初始 置 于 对 应 数组 的 开 
始 端 。ALActrj 和 B[Betr] 中 的 较 小 者 被 拷贝 到 C 中 的 下 一 个 位 置 , 相关 的 计数 器 向 前 推进 一 
步 。 当 两 个 输入 表 有 一 个 用 完 的 时 候 , 则 将 另 一 个 表 中 剩余 部 分 拷贝 到 C 中 。 合 并 例 程 如 何 工 
作 的 例子 见 下 面 各 图 。 


CEEE LTTIIIIT] 
T T T 


Actr Betr Cetr 


如 果 数 组 4 HA 1.13, 24, 26, H BAA 2, 15, 27, 38, 那么 该 算法 的 过 程 如 下 : 首先 ， 
比较 在 1 和 2 之 间 进 行 , 1 被 添加 到 C 中 , 然后 13 和 2 进行 比较 。 


CEEE CETTTTD 
个 个 $ 


Actr Betr Cetr 


2 被 添加 到 C 中 , 然后 13 和 15 进行 比较 。 


加 四 四 四 HUDNENBNN 
T T 


Actr Betr Cetr 


13 被 添加 到 C rp, 接 下 来 比较 24 和 15, 这 样 一 直 进行 到 26 和 27 进行 比较 。 


fifa] olls dd] | 
T T 


Actr Betr Cetr 
[1 13 | 24 | 26 ss | || 
T T 
Actr Bctr Cetr 
ft [13 | 28 | 26 | alslal | | | 
T T T 
Actr Betr Cetr 


将 26 添加 到 C 中 , 数组 4 已 经 用 完 。 


加 加 四 四 nanos 
T T T 


Actr Betr Cetr 


然后 将 数组 B 的 其 余部 分 找 贝 到 C 中 。 


加 四 回回 加 加 四 四 加 加 回回 
站 一- T t 


Actr Betr Cetr 


合并 两 个 已 排序 的 表 的 时 间 显 然 是 线性 的 ,因为 最 多 进行 W -1 次 比较 , Kp N 是 元 素 的 
总 数 。 为 了 看 清 这 一 点 , 注意 每 次 比较 都 把 一 个 元 素 添 加 到 C 中 , 但 最 后 的 比较 除外 , CAD 
添加 两 个 元 素 。 

因此 , 归并 排序 算法 很 容易 描述 。 如 果 N=1, 那么 只 有 一 个 元 素 需 要 排序 , 答案 是 显然 
的 。 否 则 , 递归 地 将 前 半 部 分 数据 和 后 半 部 分 数据 各 自 归并 排序 , 得 到 排序 后 的 两 部 分 数据 ， 
然后 使 用 上 面 描述 的 合并 算法 再 将 这 两 部 分 合并 到 一 起 。 例 如 , 欲 将 8 元 素数 组 24, 13, 26, 1, 
2, 27, 38, 15 HEF, 递归 地 将 前 4 个 数据 和 后 4 个 数据 分 别 排序 , 得 到 1, 13, 24, 26, 2, 15, 
27, 38。 然 后 , 像 上 面 那 样 将 这 两 部 分 合并 , 得 到 最 后 的 表 1, 2, 13, 15, 24, 26, 27, 38. KA 
法 是 经 典 的 分 治 (divide-and-conquer) 策略, 它 将 问题 分 (divide) 成 一 些小 的 问题 然后 递归 求解 ， 
而 治 (conquer) 的 阶段 则 将 分 的 阶段 解 得 的 各 答案 修补 在 一 起 。 分 而 治之 是 递归 非常 有 效 的 用 
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法 , 我 们 将 会 多 次 遇 到 。 
归并 排序 的 一 种 实现 在 图 7-9 中 给 出 。 这 里 publie 型 的 mergeSort 正 是 private 型 递归 方 
法 mergeSort 的 一 个 驱动 程序 。 














] /** 

2 * Internal method that makes recursive calls. 

3 * @param a an array of Comparable items. 

4 * @param tmpArray an array to place the merged result. 

5 * @param left the left-most index of the subarray. 

6 * @param right the right-most index of the subarray. 

7 x/ 1 

8 private static «AnyType extends Comparable<? super AnyType>> 
9 void mergeSort( AnyType [ ] a, AnyType [ ] tmpArray, int left, int right ) 
10 { 

11 if( left « right ) 

12 { 

13 int center = ( left + right ) / 2; 

14 mergeSort( a, tmpArray, left, center ); 

15 mergeSort( a, tmpArray, center + 1, right ); 

16 merge( a, tmpArray, left, center + 1, right ); 

17 } 

18 } 

19 
20 /** 
21 * Mergesort algorithm. 
22 * (param a an array of Comparable items. 

23 */ 

24 public static <AnyType extends Comparable<? super AnyType>> 
25 void mergeSort( AnyType [ ] a ) 

26 { 






AnyType [ ] tmpArray = (AnyType[]) new Comparable[ a.length ]; 






mergeSort( a, tmpArray, 0, a.length - 1 ); 


7-9 “归并 排序 例 程 


merge 例 程 很 精巧 。 如 果 对 merge 的 每 个 递归 调用 均 局 部 声明 一 个 临时 数组 , 那么 在 任 
一 时 刻 就 可 能 有 log N 个 临时 数组 处 在 活动 期 。 精 密 的 考察 表明 , 由 于 merge 是 mergeSort 
的 最 后 一 行 , 因此 在 任 一 时 刻 只 需要 一 个 临时 数组 在 活动 , 而 且 这 个 临时 数组 可 以 在 public 型 
i) mergeSort 驱动 程序 中 建立 。 不 仅 如 此 , 我 们 还 可 以 使 用 该 临时 数组 的 任意 部 分 ; 我 们 将 
使 用 与 输入 数组 a 相同 的 部 分 , 这 就 达到 本 节 末 尾 描 述 的 改进 。 图 7-10 实现 这 个 merge 例 程 。 
归并 排序 的 分 析 

归并 排序 是 用 于 分 析 递 归 例 程 技巧 的 经 典 实 例 : 我 们 必须 为 运行 时 间 写 出 一 个 递归 关系 。 
假设 N 是 2 AE, 我 们 总 可 以 将 它 分 裂 成 相等 的 两 部 分 。 对 于 N=1, 归并 排序 所 用 时 间 是 常 
Be, 我 们 将 其 记 为 1。 否 则 , 对 N 个 数 归并 排序 的 用 时 等 于 完成 两 个 大 小 为 N/2 的 递归 排序 所 
用 的 时 间 再 加 上 合并 的 时 间 , 它 是 线性 的 。 下 述 方程 给 出 了 准确 的 表示 : 

T(1) =1 
T(N) =2T(N/2) +N 

这 是 一 个 标准 的 递 推 关 系 , 它 可 以 用 多 种 方法 求解 。 我 们 将 介绍 两 种 方法 。 第 一 种 方法 是 用 V 
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去 除 递 推 关 系 的 两 边 , 我 们 很 快 就 会 发 现 其 明显 的 理由 。 相 除 后 得 到 
TN) _T(N/2) ,| 
N | N2 


/** 
* Internal method that merges two sorted halves of a subarray. 
* @param a an array of Comparable items. 
* @param tmpArray an array to place the merged result. 
* @param leftPos the left-most index of the subarray. 
* @param rightPos the index of the start of the second half. 
* @param rightEnd the right-most index of the subarray. 
*/ 
private static <AnyType extends Comparable<? super AnyType>> 
void merge( AnyType [ ] a, AnyType [ ] tmpArray, 
int leftPos, int rightPos, int rightEnd ) 


OO ON DU A UNK 


Se 
NEO 


{ 


= 
w 


int leftEnd = rightPos - 1; 
int tmpPos = leftPos; 
int numElements = rightEnd - leftPos + 1; 


= e E [m 
NOAUA 


// Main 100p 
while( leftPos <= leftEnd && rightPos <= rightEnd ) 
if( a[ leftPos ].compareTo( a[ rightPos ] ) <= 0 ) 
tmpArray[ tmpPos++ ] = a[ leftPos++ ]; 
else 
tmpArray[ tmpPos++ ] = a[ rightPos++ ]; 


= 
oo 


while( leftPos <= leftEnd ) // Copy rest of first half 
tmpArray[ tmpPos++ ] = a[ leftPos++ ]; 


while( rightPos <= rightEnd ) // Copy rest of right half 
tmpArray[ tmpPos++ ] = a[ rightPos++ ]; 


// Copy tmpArray back 
for( int i = 0; i « numElements; i++, rightEnd-- ) 
a[ rightEnd ] = tmpArray[ rightEnd ]; 





-E 7-10 merge 例 程 


该 方程 对 作为 2 REREH N 是 成 立 的 , 于 是 我 们 还 可 以 写成 
T(N/2) _T(N/4) |, 








N/2 N/4 
All 
T(N/4) T(N/8) , 
N/4 NS 
T(2). TY) 
& oy Ws 


将 所 有 这 些 方程 相 加 ,即将 等 号 左边 的 所 有 各 项 相 加 并 使 结果 等 于 右边 所 有 各 项 的 和 。 项 
T(N/2)A(N/2) 出 现在 等 号 两 边 可 以 消去 。 事 实 上 , 实际 出 现在 两 边 的 项 均 被 消去 , 我 们 称 之 为 
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一 缩 (telescoping) 求 和 和。 在 所 有 的 加 法 完成 之 后 , 最 后 的 结果 为 
这 是 因为 所 有 其 余 的 项 都 被 消去 了 ， 而 方程 的 个 数 是 log NS, 故而 将 各 方程 末尾 的 1 相 加 起 
来 得 到 log N。 再 将 两 边 同 乘 以 N, 得 到 最 后 的 答案 
T(N) =N log N - N2 O(N log N) 
注意 , 假如 在 求解 开始 时 不 是 通 除 以 N, ABA AAS RT RE ERE. DONE TA 
们 要 通 除 以 N 的 缘故 。 
另 一 种 方法 是 在 右边 连续 地 代入 递 推 关 系 。 我 们 得 到 

T(N) =2T(N/2) +N 

由 于 可 以 将 W2 代入 到 主要 的 方程 中 
2T(N/2) =2(2(T(N/4)) + N/2) =4T(N/4) +N 

因此 得 到 

T(N) =4T(N/4) +2N 
再 将 N/A 代入 到 主要 的 方程 中 去 , 我 们 看 到 

4T(N/4) =4(2T(N/8) +N/4) =8T(N/8) +N 

因此 我 们 有 

T(N) =8T(N/8) +3N 
将 这 种 方式 继续 下 去 , 得 到 

T(N) =2'T(N/2") -«k* N 
利用 k=log N, 得 到 
T(N) =NT(1) +N log N=N log N+N 


选择 使 用 哪 种 方法 是 风格 问题 。 第 一 种 方法 引起 一 些 琐碎 的 工作 , 把 它 写 到 一 张 8 > x 11 


的 纸 上 可 能 更 好 , 这 样 会 减少 数学 错误 , 不 过 需要 用 到 一 定 的 经 验 。 第 二 种 方法 更 偏重 于 使 用 
蛮 力 计算 。 

回忆 我 们 已 经 假设 N=2"。 分 析 可 以 精 化 以 处 理 N 不是 2 的 宕 的 情形 。 事 实 上 , 答案 几乎 
是 一 样 的 (通常 出 现 的 就 是 这 样 的 情形 )。 

虽然 归并 排序 的 运行 时 间 是 OCN log N), 但 是 它 有 一 个 明显 的 问题 , 即 合 并 两 个 已 排序 的 
表 用 到 线性 附加 内 存 ”。 在 整个 算法 中 还 要 花费 将 数据 拷贝 到 临时 数组 再 拷贝 回来 这 样 一 些 附 
加 的 工作 , 它 明显 减 慢 了 排序 的 速度 。 这 种 拷贝 可 以 通过 在 递归 的 那些 交替 层次 上 审慎 地 交换 
a fil tmpArray 的 角色 得 以 避免 。 归 并 排序 的 一 种 变形 也 可 以 非 递归 地 实现 ( 见 练习 7. 16) 。 

与 其 他 的 OCN log N) 排 序 算 法 比较 , 归并 排序 的 运行 时 间 严 重 依赖 于 比较 元 素 和 在 数组 
(以 及 临时 数组 ) 中 移动 元 素 的 相对 开销 。 这 些 开销 是 与 语言 相关 的 。 

例如 , 在 Java 中 ， 当 执行 一 次 泛 型 排序 (使 用 Comparator) 时 , 进行 一 次 元 素 比 较 可 能 是 
昂贵 的 ( 因为 比较 可 能 不 容易 被 内 吹 ， 从 而 动态 调度 的 开销 可 能 会 减 慢 执行 的 速度 ) ,但 是 移动 
元 素 则 是 省 时 的 (因为 它们 是 引用 的 赋值 ， 而 不 是 庞大 对 象 的 拷贝 ) 。 归 并 排序 使 用 所 有 流行 的 
排序 算法 中 最 少 的 比较 次 数 , 因此 是 使 用 Java 的 通用 排序 算法 中 的 上 好 的 选择 。 事 实 上 , 它 就 
是 标准 Java 类 库 中 泛 型 排序 所 使 用 的 算法 。 

另 一 方面 , FEC ++ 的 泛 型 排序 中 , 如 果 对 象 庞 大 , 那么 拷贝 对 象 可 能 需要 很 大 开销 , 而 由 
于 编译 器 具有 主动 执行 内 藤 优 化 的 能 力 , 因此 比较 对 象 常常 是 相对 省 时 的 。 在 这 种 情形 下 , 如 
果 我 们 还 能 够 使 用 更 少 的 数据 移动 , 那么 有 理由 让 一 个 算法 多 使 用 一 些 比较 。 下 一 节 将 要 讨论 


日 ”理论 上 使 用 更 少 的 附加 内 存 是 可 能 的 , 但 所 得 到 的 算法 是 复杂 的 和 不 实际 的 。 
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的 Quicksort 快速 排序 ) 达 到 了 这 种 权衡 , 并 且 是 C ++ 库 中 通常 所 使 用 的 排序 例 程 。 
在 Java P, 快速 排序 也 用 作 基 本 类 型 的 标准 库 排 序 。 这 里 ， 比 较 和 数据 移动 的 开销 是 类 似 
的 ,因此 使 用 少 得 多 的 数据 移动 足以 补偿 那些 附加 的 比较 而 且 还 有 盘 余 。 


7.7 快速 排序 


顾名思义 , 快速 排序 ( quicksort) 是 实践 中 的 一 种 快速 的 排序 算法 , 在 C++ 或 对 Java 基本 类 
型 的 排序 中 特别 有 用 。 它 的 平均 运行 时 间 是 0(N log N) 。 该 算法 之 所 以 特别 快 , 主要 是 由 于 非 
常 精练 和 高 度 优化 的 内 部 循环 。 它 的 最 坏 情形 性 能 为 ON), 但 经 过 稍 许 努力 可 使 这 种 情形 极 
难 出 现 。 通 过 将 快速 排序 和 堆 排序 结合 , 由 于 堆 排 序 的 OCN log N) 最 坏 情形 运行 时 间 , 我 们 可 
以 对 几乎 所 有 的 输入 都 能 达到 快速 排序 的 快速 运行 时 间 。 练 习 7. 27 描述 的 就 是 这 种 方法 。 

虽然 多 年 来 快速 排序 算法 曾 被 认为 是 理论 上 高 度 优化 而 在 实践 中 不 可 能 正确 编程 的 一 种 算 
法 , 但 是 如 今 该 算法 简单 易 懂 并 且 被 证 明 是 正确 的 。 像 归并 排序 一 样 , 快速 排序 也 是 一 种 分 治 
的 递归 算法 。 


public static void sort( List<Integer> items ) 
{ 
if( items.size( ) >1) 
{ 
List<Integer> smaller = new ArrayList<>( ); 
List<Integer> same = new ArrayList<>( ); 
List<Integer> larger = new ArrayList<>( ); 


Integer chosenItem = items.get( items.size( ) / 2 ); 
for( Integer i : items ) 
{ 
if( i < chosenItem ) 
smaller.add(-i ); 
else if( i > chosenI tem ) 
larger.add( i ); 
else 
same.add( i ); 


) 


sort( smaller );  // Recursive call! 
sort( larger ); // Recursive call! 


items.clear( ); 
items.addAll( smaller ); 
items.addAll( same ); 
items.addAll( larger ); 





图 7-11 简单 的 递归 排序 算法 
证 我 们 从 下 面 这 个 简单 排序 算法 开始 将 一 列表 排序 。 随 便 选 取 任 一 项 ， 然 后 形成 三 个 组 ; 
小 于 被 选项 的 一 组 ， 等 于 被 选项 的 一 组 ， 大 于 被 选项 的 一 组 。 递 归 地 对 第 一 和 第 三 组 排序 ， 然 
后 把 三 组 接龙 。 根 据 递归 的 基本 原理 ， 结 果 保 证 是 对 原始 列表 的 一 个 有 序 排列 。 图 7-11 给 出 
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了 这 种 算法 的 一 个 直接 的 实现 ， 并 且 其 效率 一 般 来 讲 对 大 多 数 的 输入 还 是 很 不 错 的 。 事 实 上 ， 
如 果 表 中 含有 太 量 重复 项 ， 以 及 相对 较 少 的 不 同 项 ， 其 表现 是 非常 好 的 。 

我 们 描述 的 这 种 算法 形成 了 快速 排序 的 基础 。 然 而 ， 它 会 产生 额外 的 列表 ， 并 且 还 是 递归 
地 这 么 做 ,我 们 很 难看 到 这 比 归并 排序 进步 了 多 少 。 EKE, 自前 为 止 ， 我 们 的 确 没 什么 进 
步 。 为 了 做 得 更 好 一 些 , 我们 必须 避免 使 用 大 量 额 外 的 内 存 ， 并 且 有 干净 的 内 循环 。 于 是 快速 
排序 通常 应 避免 建立 第 二 组 (包含 等 于 项 的 ) ， 并 且 该 算法 还 有 很 多 微妙 的 细节 会 影响 到 效率 ， 
所 以 才 这 么 复杂 。 

现在 我 们 描述 最 常用 的 快速 排序 的 实现 一 一 “经 典 快速 排序 ”， 其 中 输入 存放 在 数组 里 ， 
且 算 法 不 产生 额外 的 数组 。 

将 数组 $ 排序 的 基本 算法 由 下 列 简单 的 四 步 组 成 : 

L 如果 S 中 元 素 个 数 是 0 或 1, 则 返回 。 

2. MS 中 任 一 元 素 v, 称 之 为 枢纽 元 (pivot) 。 

3. S- iv] CS 中 其 余 元 素 ) 划分 成 两 个 不 相交 的 集合 : S, = |xe5- iv] |x<v| 和 5, = 
IxeS- |v»] [|xzwvl 

4. 返回 | quicksort( S, ) 后 跟 v， 继 而 返回 quicksort( 5, ) | 。 

由 于 对 那些 等 于 枢纽 元 的 元 素 的 处 理 上 , 第 3 步 分 割 的 描述 不 是 唯一 的 , 因此 这 就 成 了 一 
种 设计 决策 。 一 部 分 好 的 实现 方法 是 将 这 种 情形 尽 可 能 有 效 地 处 理 。 直 观 地 看 , 我 们 希望 把 等 
于 枢纽 元 的 大 约 一 半 的 关键 字 分 到 S, 中 , 而 另外 的 一 半分 到 S, 中 , 很 像 我 们 希望 二 又 查 找 树 
保持 平衡 的 情形 。 

图 7-12 显示 了 快速 排序 对 一 个 数 集 的 做 
法 。 这 里 的 枢纽 元 (随机 地 ) 选 为 65, 集合 中 其 
余 元 素 分 成 两 个 更 小 的 集合 。 递 归 地 将 较 小 的 
数 的 集合 排序 得 到 0, 13, 26, 31, 43, 57 (UH 
法 则 3), 较 大 的 数 的 集合 类 似 地 排序 ， 此 时 整 
个 集合 排序 后 的 排列 很 容易 得 到 。 

该 算法 显然 成 立 , 但 是 不 清楚 的 是 , 为 什 
么 它 比 归并 排序 快 。 如 同 归 并 排序 那样 , 快速 
排序 递归 地 解决 两 个 子 问 题 并 需要 线性 的 附加 
工作 (第 3 步 ), 不 过 , 与 归并 排序 不 同 , 这 两 
个 子 问题 并 不 保证 具有 相等 的 大 小 , 这 是 个 潜 
在 的 隐患 。 快 速 排序 更 快 的 原因 在 于 , 第 3 步 


4 
分 割 成 两 组 实际 上 是 在 适当 的 位 置 进行 并 且 非 
常 有 效 , 它 的 高 效 不 仅 可 以 弥补 大 小 不 等 的 递 © 
归 调 用 的 不 足 而 且 还 能 有 所 超出 。 








迄今 为 止 ， 对 该 算法 的 描述 尚 缺 少许 多 细 
节 , 我 们 现在 就 来 补充 这 此 细节。 实现 第 2 3b 
和 第 3 步 有 许多 方法 ; 这 里 介绍 的 方法 是 大 量 
分 析 和 经 验 研究 的 结果 , 它 代表 实现 快速 排序 
的 非常 有 效 的 方法 ,即使 是 对 该 方法 最 微小 的 
偏差 都 可 能 引起 意 想 不 到 的 坏 结果 。 | 
7.7.1 ”选取 枢纽 元 N F 


虽然 上 面 描述 的 算法 无 论 选 择 哪个 元 素 作 
为 枢纽 元 都 能 完成 排序 工作 , 但 是 有 些 选 择 显 


然 优 于 其 他 选择 。 图 7-12 以 例 说 明快 速 排序 的 各 步 


对 小 数 的 集合 进行 quicksort ”对 大 数 的 集合 进行 quicksort 
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一 种 错误 的 方法 

通常 的 、 无 知 的 选择 是 将 第 一 个 元 素 用 作 枢 纽 元 。 如 果 输 入 是 随机 的 , 那么 这 是 可 以 接受 
的 , 而 如 果 输 入 是 预 排序 的 或 是 反 序 的 , 那么 这 样 的 枢纽 元 就 产生 一 个 劣质 的 分 割 , 因为 所 有 
的 元 素 不 是 都 被 划 入 S, 就 是 都 被 划 入 5S,。 更 糟糕 的 是 , 这 种 情况 毫 无 例外 地 发 生 在 所 有 的 递 
归 调 用 中 。 实 际 上 , 如 果 第 一 个 元 素 用 作 枢 纽 元 而 且 输 入 是 预先 排序 的 , 那么 快速 排序 花费 的 
时 间 将 是 二 次 的 , 可 是 实际 上 却 根本 没 干什么 事 , ROA SA). TAAL, 预 排序 的 输入 (或 具 
有 一 大 段 予 排序 数据 的 输入 ) 是 相当 常见 的 , 因此 , 使 用 第 一 个 元 素 作为 枢纽 元 是 绝对 可 怕 的 
坏 主意 , 应 该 立即 放弃 这 种 想法 。 男 一 种 想法 是 选取 前 两 个 互 异 的 关键 字 中 的 较 大 者 作为 枢纽 
元 , 不 过 这 和 只 选取 第 一 个 元 素 作为 枢纽 元 具有 相同 的 害处 。 不 要 使 用 这 两 种 选取 枢纽 元 的 
策略 。 

一 种 安全 的 做 法 

一 种 安全 的 方针 是 随机 选取 枢纽 元 。 一 般 来 说 这 种 策略 非常 安全 , 除非 随机 数 发 生 器 有 
问题 ( 它 并 不 像 你 可 能 想象 的 那么 罕见 ) ,因为 随机 的 枢纽 元 不 可 能 总 在 接连 不 断 地 产生 劣 
质 的 分 割 。 另 一 方面 ,随机 数 的 生成 一 般 开 销 很 大 , 根本 减少 不 了 算法 其 余部 分 的 平均 运行 
时 间 。 

三 数 中 值 分 割 法 ( Median-of-Three Partitioning) 

一 组 YW 个 数 的 中 值 (也 叫 作 中 位 数 ) 是 第 [ 2 I 个 最 大 的 数 。 枢 纽 元 的 最 好 的 选择 是 数 
组 的 中 值 。 不 幸 的 是 , 这 很 难 算 出 并 且 会 明显 减 慢 快速 排序 的 速度 。 这 样 的 中 值 的 估计 量 
可 以 通过 随机 选取 三 个 元 素 并 用 它们 的 中 值 作为 枢纽 元 而 得 到 。 事 实 上 , 随机 性 并 没有 多 
大 的 帮助 , 因此 一 般 的 做 法 是 使 用 左 端 、 右 端 和 中 心 位 置 上 的 三 个 元 素 的 中 值 作为 枢纽 
元 。 例 如 , 输入 为 8, 1,4,9,6,3,5,2,7,0, 它 的 左边 元 素 是 8, 右边 元 素 是 0, 中 心 位 
置 (L( left +right)/2」) 上 的 元 素 是 6。 于 是 枢纽 元 则 是 v=6。 显 然 使 用 三 数 中 值 分 割 法 消除 了 
预 排序 输入 的 坏 情形 (在 这 种 情形 下 , 这 些 分 割 都 是 一 样 的 ), 并 且 实 际 减少 了 14% 的 比较 
次 数 。 

7.7.2 分 割 策略 

有 几 种 分 割 策略 用 于 实践 ,而 此 处 描述 的 分 割 策略 已 被 证 明 能 够 给 出 好 的 结果 。 我 们 将 会 
看 到 , 分 割 是 一 种 很 容易 出 错 或 低 效 的 操作 , 但 使 用 一 种 已 知 方法 是 安全 的 。 该 法 的 第 一 步 是 
通过 将 枢纽 元 与 最 后 的 元 素 交 换 使 得 枢纽 元 离开 要 被 分 割 的 数据 段 。i 从 第 一 个 元 素 开始 而 j 
从 倒数 第 二 个 元 素 开 始 。 如 果 原 始 输入 与 前 面 一 样 , 那么 下 面 的 图 表示 当前 的 状态 。 


暂时 假设 所 有 的 元 素 互 异 , 后 面 我 们 将 着 重 考虑 在 出 现 重复 元 素 时 应 该 怎么 办 。 作 为 有 限 的 情 
况 , 如 果 所 有 的 元 素 都 相同 , 那么 我 们 的 算法 必须 做 该 做 的 事 。 然 而 奇怪 的 是 , 此 时 却 特 别 容 
易 出 错 。 

在 分 割 阶段 要 做 的 就 是 把 所 有 小 元 素 移 到 数组 的 左边 而 把 所 有 大 元 素 移 到 数组 的 右边 。 当 
然 ,“ 小 ”和 “大 ”是 相对 于 枢纽 元 而 言 的 。 

Sift ji 的 左边 时 , 我 们 将 i AB, 移 过 那些 小 于 枢纽 元 的 元 素 , 并 将 j AB, 移 过 那些 
大 于 枢纽 元 的 元 素 。 当 i 和 j 停止 时 , i 指向 一 个 大 元 素 而 j 指向 一 个 小 元 素 。 如 果 i 斌 在 j 的 
左边 , 那么 将 这 两 个 元 素 互 换 , 其 效果 是 把 一 个 大 元 素 推 向 右边 而 把 一 个 小 元 素 推 向 左边 。 在 
上 面 的 例子 中 , i 不 移动 , 而 j 滑 过 一 个 位 置 , 情况 如 下 图 。 
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然后 我 们 交换 由 i 和 j 指向 的 元 素 , 重复 该 过 程 直到 i 和 j 彼此 交错 为 止 。 


第 一 次 交换 后 
2 1 4 9 0 3 5 8 T 6 
个 
i j 
第 二 次 交换 前 
2 y 和 
个 t 
i j 
第 二 次 交换 后 
2 i 4 3 0 3 9 8 7 6 
t T 
i j 
第 三 次 交换 前 
2 j! 4 5 0 3 9 S8 7 6 
a 


j i 
此 时 , i 和 j 已 经 交错 , 故 不 再 交换 。 分 割 的 最 后 一 步 是 将 枢纽 元 与 i 所 指向 的 元 素 交 换 。 
在 与 枢纽 元 交换 后 


1 1 
i pivot 

在 最 后 一 步 当 枢纽 元 与 i 所 指向 的 元 素 交 换 时 , 我 们 知道 在 位 置 p < i 的 每 一 个 元 素 都 必 
然 是 小 元 素 , 这 是 因为 或 者 位 置 p 包含 一 个 从 它 开始 移动 的 小 元 素 , REME p 上 原来 的 大 元 
素 在 交换 期 间 被 置换 了 。 类 似 的 论断 指出 , 在 位 置 p > i 上 的 元 素 必然 都 是 大 元 素 。 

我 们 必须 考虑 的 一 个 重要 的 细节 是 如 何 处 理 那 些 等 于 枢纽 元 的 元 素 。 问 题 在 于 当 i 遇 到 一 
个 等 于 枢纽 元 的 元 素 时 是 否 应 该 停止 ， 以 及 当 3 遇 到 一 个 等 于 枢纽 元 的 元 素 时 是 否 应 该 停止 。 
直观 地 看 , i 和 j 应 该 做 相同 的 工作 , 否则 分 割 将 出 现 偏向 一 方 的 倾向 。 例 如 , 如 果 守 停止 而 j 
不 停 , 那么 所 有 等 于 枢纽 元 的 元 素 都 将 被 分 到 S, 中 。 

为 了 明确 一 种 更 好 的 办 法 , 我 们 考虑 数组 中 所 有 的 元 素 都 相等 的 情况 。 如 果 i 和 j 都 停 
ik, 那么 在 相等 的 元 素 间 将 有 很 多 次 交换 。 虽 然 这 似乎 没有 什么 意义 , 但 是 其 正面 的 效果 则 是 
i 和 j 将 在 中 间 交 错 , 因此 当 枢 纽 元 被 替代 时 , 这 种 分 割 建立 了 两 个 几乎 相等 的 子 数组 。 归 并 
排序 的 分 析 告 诉 我 们 , 此 时 总 的 运行 时 间 为 OCN log N)。 

如 果 i A 5 都 不 停止 , 那么 就 应 该 有 相应 的 程序 防止 和 j 越 出 数组 的 端点 , 不 进行 交换 
的 操作 。 虽 然 这 样 似乎 不 错 , 但 是 正确 的 实现 方法 却 要 把 枢纽 元 交换 到 i 最 后 到 过 的 位 置 , 这 
个 位 置 是 倒数 第 二 个 位 置 (或 最 后 的 位 置 , 这 依赖 于 精确 的 实现 ) 。 这 样 的 做 法 将 会 产生 两 个 非 
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常 不 均衡 的 子 数组 。 如 果 所 有 的 关键 字 都 是 相同 的 , 那么 运行 时 间 则 是 O(N ) 。 对 于 预 排序 的 
输入 而 言 , 其 效果 与 使 用 第 一 个 元 素 作 为 枢纽 元 相同 。 它 花费 的 时 间 是 二 次 的 可 是 却 什 么 事 也 
没 干 ! 

这 样 我 们 就 发 现 , 进行 不 必要 的 交换 建立 两 个 均衡 的 子 数 组 要 比 蛮 干 冒险 得 到 两 个 不 均 衔 
的 子 数组 好 。 因 此 , WR iR j 遇 到 等 于 枢纽 元 的 关键 字 , 那么 我 们 就 让 i 和 j 都 停止 。 对 于 
这 种 输入 , 这 实际 上 是 四 种 可 能 性 中 唯一 的 一 种 不 花费 二 次 时 间 的 可 能 。 

初 看 起 来 , 过 多 考虑 具有 相同 元 素 的 数组 似乎 有 些 思春 。 难 道 有 人 偏 要 对 50 000 个 相同 
的 元 素 排序 吗 ? 为 什么 ?我们 记得 , 快速 排序 是 递归 的 。 设 有 1 000 000 个 元 素 , 其 中 有 50 000 
个 是 相同 的 (或 更 可 能 的 情况 是 其 排序 关键 字 都 相等 的 复杂 元 素 的 情况 ) 。 最 后 , 快速 排序 将 对 
这 50 000 个 元 素 进行 递归 调用 。 此 时 , 真正 重要 的 在 于 确保 这 50 000 个 相同 的 元 素 能 够 被 有 效 
地 排序 。 

7.7.3 小 数组 

对 于 很 小 的 数组 (N<20), 快速 排序 不 如 插入 排序 。 不 仅 如 此 , 因为 快速 排序 是 递归 的 , 所 
以 这 样 的 情形 经 常 发 生 。 通 常 的 解决 方法 是 对 于 小 的 数组 不 使 用 递归 的 快速 排序 , 而 代 之 以 诸 
如 插入 排序 这 样 的 对 小 数组 有 效 的 排序 算法 。 使 用 这 种 策略 实际 上 可 以 节省 大 约 15% (相对 于 
不 用 截止 的 做 法 而 自始至终 使 用 快速 排序 时 ) 的 运行 时 间 。 一 种 好 的 截止 范围 (cutoff range ) 是 
N=10, 虽然 在 5 到 20 之 间 任 一 截止 范围 都 有 可 能 产生 类 似 的 结果 。 这 种 做 法 也 避免 了 一 些 有 
害 的 退化 情形 , 如 取 三 个 元 素 的 中 值 而 实际 上 却 只 有 一 个 或 两 个 元 素 的 情况 。 

7.7.4 实际 的 快速 排序 例 程 

快速 排序 的 驱动 程序 见 图 7-13。 


/** 

* Quicksort algorithm. 

* @param a an array of Comparable items. 

*/ 
public static <AnyType extends Comparable<? super AnyType>> 
void quicksort( AnyType [ ] a ) 


= 


quicksort( a, 0, a.length - 1 ); 
} 
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7-13 ”快速 排序 的 驱动 程序 


这 种 例 程 的 一 般 形式 是 传递 数组 以 及 被 排序 数组 的 范围 (left 和 right)。 要 处 理 的 第 一 
个 例 程 是 枢纽 元 的 选取 。 选 取 枢纽 元 最 容易 的 方法 是 对 a[ left], alright], al center] 适 
当地 排序 。 这 种 方法 还 有 额外 的 好 处 , 即 该 三 元 素 中 的 最 小 者 被 分 在 a[ left], 而 这 正 是 分 割 
阶段 应 该 将 它 放 到 的 位 置 。 三 元 素 中 的 最 大 者 被 分 在 alright], 这 也 是 正确 的 位 置 , AWE 
大 于 枢纽 元 。 因 此 , 我 们 可 以 把 枢纽 元 放 到 alright -1] 并 在 分 割 阶段 将 i 和 /初始 化 为 
left +1 Hl right -2。 因 为 a[left] 比 枢纽 元 小 , 所 以 将 它 用 作 j 的 警戒 标记 ,这 是 另 一 个 
好 处 。 因 此 , 我 们 不 必 担 心 j 跑 过 端点 。 由 于 i 将 停 在 那些 等 于 枢纽 元 的 关键 字 处 , 故 将 枢纽 元 
存储 在 alright -1] 则 提供 一 个 警戒 标记 。 图 7-14 中 的 程序 进行 三 数 中 值 分 割 , 它 具 有 所 描 
述 的 一 切 副作用 。 似 乎 使 用 实际 上 不 对 a[ left ]、a[ right], a[ center |] 排序 的 方法 计算 枢 
纽 元 只 不 过 效率 稍微 降低 一 些 , 但 是 很 奇怪 , 这 将 产生 坏 结果 ( 见 练习 7. 51)。 

图 7-15 的 程序 是 快速 排序 真正 的 核心 。 它 包括 划分 和 递归 调用 。 这 里 有 几 件 事 值得 注意 。 
第 16 行将 ; 和 7 初始 化 为 比 它 们 的 正确 值 超过 1 个 位 置 , 使 得 不 存在 特殊 情况 需要 考虑 。 此 处 
的 初始 化 依赖 于 三 数 中 值 分 割 法 有 一 些 副作用 的 事实 ; 如 果 按 照 简单 的 枢纽 元 策略 使 用 该 程序 
而 不 进行 修正 , 那么 这 个 程序 是 不 能 正确 运行 的 , 原因 在 于 i 和 j 开始 于 错误 的 位 置 而 不 再 存 
在 j 的 警戒 标志 。 
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/** 
* Return median of left, center, and right. 
* Order these and hide the pivot. 
*/ 
private static <AnyType extends Comparable<? super AnyType>> 
AnyType median3( AnyType [ ] a, int left, int right ) 
{ 
int center = ( left + right ) / 2; 
if( a[ center ].compareTo( a[ left] ) < 0) 
swapReferences( a, left, center ); 
if( a[ right ].compareTo( a[ left ]-) <0) 一 
swapReferences( a, left, right ); 
if( a[ right ].compareTo( a[ center ] ) < 0 ) 
swapReferences( a, center, right ); 


// Place pivot at position right - 1 
swapReferences( a, center, right - 1 ); 
return a[ right - 1]; 
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图 7-14 执行 三 数 中 值 分 割 法 的 程序 


第 22 行 的 交换 动作 为 了 速度 上 的 考虑 有 时 显 式 地 写 出 。 为 使 算法 速度 快 ,需要 强制 使 编 
译 器 以 直接 插入 的 方式 编译 这 些 代码 。 如 果 swapReferences 是 final WR, 则 许多 编译 器 
都 将 自动 这 么 做 , 但 对 于 不 这 么 做 的 编译 器 , 差别 可 能 会 很 明显 。 

最 后 , 从 第 19 行 和 第 20 行 可 以 看 出 为 什么 快速 排序 这 么 快 。 算 法 的 内 部 循环 由 一 个 
增 1/ 减 1 运算 (运算 很 快 )、 一 个 测试 以 及 一 个 转移 组 成 。 该 算法 没有 像 在 归并 排序 中 那 
样 的 额外 技巧 , 不 过 , 这 个 程序 仍然 非常 巧妙 。 颇 具 诱 惑 力 的 做 法 是 将 第 16 行 到 第 25 行 
用 图 7-16 中 的 语句 代替 , 不 过 这 不 能 正确 运行 , 因为 若 al i] =a[j] = pivot 则 会 产生 一 个 
无 限 循环 。 
7.7.5 快速 排序 的 分 析 

正如 归并 排序 那样 , 快速 排序 也 是 递归 的 , 因此 , 它 的 分 析 需 要 求解 一 个 递 推 公式 。 我 们 
将 对 快速 排序 进行 这 种 分 析 。 假 设 有 一 个 随机 的 枢纽 元 (不 用 三 数 中 值 分 割 法 ) 并 对 一 些小 的 
文件 不 设 截止 范围 。 和 归并 排序 一 样 , 取 T(0) = TCU) 21, 快速 排序 的 运行 时 间 等 于 两 个 递归 
调用 的 运行 时 间 加 上 花费 在 分 割 上 的 线性 时 间 ( 枢纽 元 的 选取 仅 花 费 常数 时 间 )。 我 们 得 到 基 
本 的 快速 排序 关系 


T(N) =T(i) +T(N-i-1) +eN (7.1) 
其 中 , i= |S, | JES, 中 元 素 的 个 数 。 我 们 将 考察 三 种 情况 。 
最 坏 情况 的 分 析 
枢纽 元 始终 是 最 小 元 素 。 此 时 i=0, 如 果 我 们 忽略 无 关 紧 要 的 T(0) =1, 那么 递 推 关系 为 
T(N) =T(N-1) ««N, N»1 (7.2) 
反复 使 用 方程 (7.2) ,得 到 
T(N-1) =T(N-2) +e(N-1) (7.3) 
T(N -2) =T(N-3) «c(N -2) (7.4) 
T(2) 2 T(1) telt) (7.5) 


将 所 有 这 些 方程 相 加 , 得 到 
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TCN) =T(1) +e Y, i2 0(W)) (7.6) 


这 正 是 我 们 前 面 宣布 的 结果 。 


BAN DU AWD o 
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Internal quicksort method that makes recursive calls. 
Uses median-of-three partitioning and a cutoff of 10. 
@param a an array of Comparable items. 
@param left the left-most index of the subarray. 
@param right the right-most index of the subarray. 
*/ 
private static <AnyType extends Comparable<? super AnyType>> 
void quicksort( AnyType [ ] a, int left, int right ) 
{ 
if( left + CUTOFF <= right ) 
{ 


AnyType pivot = median3( a, left, right ); 


// Begin partitioning 
int i = left, j = right - 1; 
for( s 3) 
{ 
while( a[ ++i ].compareTo( pivot ) <0) { } 
while( a[ --j ].compareTo( pivot ) > 0) { } 
UC 1T «3 ) 
swapReferences( a, i, j ); 
else 
break; 


swapReferences( a, i, right - 1); // Restore pivot 


quicksort( a, left, i - 1); // Sort small elements 
quicksort( a, i + 1, right );  // Sort large elements 
} 
else // Do an insertion sort on the subarray 
insertionSort( a, left, right ); 


图 7-15 快速 排序 的 主 例 程 


int i = left + 1, j = right -2; 

for( ; ; ) 

{ 
while( a[ i ].compareTo( pivot ) < 0 ) i++; 
while( a[ j ].compareTo( pivot ) > 0 ) j-- 


if( i4 ) 

swapReferences( a, i, j ); 
else 

break; 





图 7-16 对 快速 排序 小 的 改动 , 它 将 中 断 该 算法 
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最 好 情况 的 分 析 

在 最 好 的 情况 下 , 枢纽 元 正好 位 于 中 间 。 为 了 简化 数学 推导 , 我 们 假设 两 个 子 数组 恰好 各 
为 原 数组 的 一 半 大 小 , 虽然 这 会 给 出 稍微 过 高 的 估计 , 但 是 由 于 我 们 只 关心 大 0 答案 , 因此 结 
果 还 是 可 以 接受 的 。 


T(N) =2T(N/2) +eN (7.7) 
JN 去 除 方程 (7.7) 的 两 边 ， 
AN EOD bi (7.8) 





反复 套用 这 个 方程 , 得 到 
T(N/2) _TCM4) | 











N/2 N/4 (Ey 
T(N/4) -.T(ON/8) , 
N4 ^ NAB 39) 
M2) D, (7.11) 
将 从 (7.8) 到 (7. 11) 的 方程 加 起 来 , 并 注意 到 它们 共有 log N 个 ,于 是 
TD ud P belog N (7.12) 
由 此 得 到 
T(N) 2cN log N+N= O(N log N) (1.13) 
注意 , 这 和 归并 排序 的 分 析 完 全 相同 , 因此 , 我 们 得 到 相同 的 答案 。 
平均 情况 的 分 析 


这 是 最 困难 的 部 分 。 对 于 平均 情况 , 我 们 假设 对 于 S, 每 一 个 的 大 小 都 是 等 可 能 的 , 因此 
每 个 大 小 均 有 概率 1AN。 这 个 假设 对 于 我 们 这 里 的 枢纽 元 选取 和 分 割 策略 实际 上 是 合理 的 , 不 
过 , 对 于 某 些 其 他 情况 它 并 不 合理 。 那 些 不 保持 子 数组 随机 性 的 分 割 策略 不 能 使 用 这 种 分 析 方 
法 。 有 趣 的 是 , 这 些 策略 看 来 导致 程序 在 实际 运行 中 花费 更 长 的 时 间 。 


由 该 假设 可 知 ,7(i) 从 而 了 CN -i-1) 的 平均 值 为 (1ZN) 7(j) 。 此 时 方程 (7. 1) 变 成 


TN) = i TG) ] ««N (7.14) 
MRH N 3E ULT ECT. 14) , WA 
NT(N) JAF T(j) | «e (7.15) 
我 们 需要 除去 和 号 以 简化 计算 。 注 意 ， 可 以 再 套用 一 次 方程 (7. 15) ， 得 到 
(N-1)T(N-1) =2[ = T() ] *e(N -1)* (7. 16) 
若 从 (7. 15) 减 去 (7. 16) , 则 得 到 
NT(N) -(N-1)T(N-1) =2T(N-1) +2cN-e (7.17) 
移 项 、 合 并 并 除去 右边 无 关 紧 要 的 项 -c , 得 到 
NT(N) 2 (N € 1) T(N - 1) *2cN (7.18) 


现在 我 们 有 了 一 个 只 用 T(N-1) 表 示 TON) AK. BURIAL EIE, 不 过 方程 (7. 18) 的 
形式 不 适合 。 为 此 , 用 N(N+1) 除 方程 (7. 18) : 

T(N) 二 M. 

N«1 N "s 





(7. 19) 
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MERIETE 
T(N-1) T(N-2) 2e 
CN zip a 1 +H (7. 20) 
T(N-2) met 3), 2c 
N-1 N-2 NI (7.21) 
T(2) T(1) Ze 
5 4. *3 (7.22) 
将 方程 (7. 19) 到 (7.22) 相 加 , 得 到 
T(N) _ Hu 
Wei” D uae Y d (7.23) 
该 和 大 约 为 log.(NW+1) +y-3/2, 其 中 y=0. = mon s constant) ， 于 是 
T(N) 
Wal = O(log N) (7. 24) 
从 而 
T(N)  O(N log N) (7.25) 


虽然 这 里 的 分 析 看 似 复杂 , 但 是 实际 上 并 不 复杂 一 一 一 旦 看 出 某 些 递 推 关系 , 这 些 步骤 是 
很 自然 的 。 该 分 析 实 际 上 还 可 以 再 进一步 。 上 面 描述 的 高 度 优化 形式 也 已 经 分 析 过 了 , 结果 的 
获得 非常 困难 , 涉及 一 些 复杂 的 递归 和 高 深 的 数学 。 相 等 元 素 的 影响 也 被 仔细 地 进行 了 分 析 ， 
实际 上 所 介绍 的 程序 就 是 这 么 做 的 。 

7.7.6 选择 问题 的 线性 期 望 时 间 算 法 

可 以 修改 快速 排序 以 解决 选择 问题 ( selection problem) , 该 问题 我 们 在 第 1 章 和 第 6 章 已 经 
见 过 。 当 时 , 通过 使 用 优先 队列 , 我 们 能 够 以 时 间 0(N +k log NN) 找到 第 个 最 大 (或 最 小 ) 元 。 
对 于 查找 中 值 的 特殊 情况 , 它 给 出 一 个 0(N log N) 算 法 。 

由 于 我 们 能 够 以 OCN log N) 时 间 给 数组 排序 , 因此 可 以 期 望 为 选择 问题 得 到 一 个 更 好 的 时 
间 界 。 我 们 介绍 的 查找 集合 5 中 第 个 最 小 元 的 算法 几乎 与 快速 排序 相同 。 事实 上 , 其 前 三 步 
是 一 样 的 。 我 们 把 这 种 算法 叫 作 快速 选择 ( quickselect)。 令 |S, | 为 S, 中 元 素 的 个 数 。 快 速 选 
择 的 步骤 如 下 : 

1. WR | S| =1, 那么 k=1 并 将 5S 中 的 元 素 作为 答案 返回 。 如 果 正 在 使 用 小 数组 的 截止 
(cutoff) WHA. | S| <CUTOFF, 则 将 S 排序 并 返回 第 上 个 最 小 元 素 。 

2. 选取 一 个 枢纽 元 ve 5。 

3. 将 集合 5 -|v 分 割 成 5, FI S, 就 像 我 们 在 快速 排序 中 所 做 的 那样 。 

4. WR kS |S, |, 那么 第 个 最 小 元 必然 在 S, 中 。 在 这 种 情况 下 , 返回 quickselect( 5,， 
k), MRA=1+ |S, | ,那么 枢纽 元 就 是 第 天 个 最 小 元 , 我 们 将 它 作 为 答案 返回 。 否则, 这 第 
个 最 小 元 就 在 S, P, EE 5, 中 的 第 (上 - |S, | -1) 个 最 小 元 。 我 们 进行 一 次 递归 调用 并 返回 
quickselect(S,, k - | S, ES 

与 快速 排序 相 比 , 快速 选择 只 作 一 次 递归 调用 而 不 是 两 次 。 快 速 选择 的 最 坏 情 况 和 快速 排 
序 的 相同 , 也 是 O(N ) 。 直 观看 来 , 这 是 因为 快速 排序 的 最 坏 情况 是 在 S, 和 5, 有 一 个 是 空 的 
时 候 的 情况 ; 于 是 , 快速 选择 就 不 是 真 的 节省 一 次 递归 调用 。 不 过 , 平均 运行 时 间 是 0(N)。 具 
体 分 析 类 似 于 快速 排序 的 分 析 , 我 们 将 它 留 作 一 道 练 习题 。 

快速 选择 的 实现 甚至 比 抽象 描述 的 还 要 简单 ， 其 程序 见 图 7-17。 当 算法 终止 时 , 第 个 最 
小 元 就 在 位 置 -1 上 (因为 数组 开始 于 下 标 0)。 这 破坏 了 原来 的 排序 ; 如 果 不 希 望 这 样 ,那么 
必需 要 做 一 份 拷贝 。 

使 用 三 数 中 值 选 取 枢纽 元 的 方法 使 得 最 坏 情况 发 生 的 机 会 几乎 是 微不足道 的 。 然 而 , 通过 
仔细 选择 枢纽 元 , 我 们 可 以 消除 二 次 的 最 坏 情况 而 保证 算法 是 0(N) 的 。 可 是 这 么 做 的 额外 开 
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销 是 相当 大 的 , 因此 最 终 的 算法 主要 在 于 理论 上 的 意义 。 在 第 10 章 我 们 将 考查 选择 问题 的 线 
性 时 间 最 坏 情形 的 算法 , 我 们 还 将 看 到 选取 枢纽 元 的 一 个 有 趣 的 技巧 , 它 导致 在 实践 中 多 少 要 
更 快 一 些 的 选择 算法 。 


/xx 
* Internal selection method that makes recursive calls. 
* Uses median-of-three partitioning and a cutoff of 10. 
* Places the kth smallest item in a[k-1]. 
* @param a an array of Comparable items. 
* @param left the left-most index of the subarray. 
* @param right the right-most index of the subarray. - 
* (param k the desired index (1 is minimum) in the entire array. 
*/ 
private static <AnyType extends Comparable<? super AnyType>> 
void quickSelect( AnyType [ ] a, int left, int right, int k ) 
{ 
if( left + CUTOFF <= right ) 
{ 


On O| | -& C9 DHS — 


AnyType pivot = median3( a, left, right ); 


// Begin partitioning 
int i = left, j = right - 1; 
forf $ $ ) 
{ 
while( a[ ++i ].compareTo( pivot ) < 0 { } 
while( a[ --j ].compareTo( pivot ) > 0 { } 
if( i «d ) 
swapReferences( a, i, j ); 
else 
break; 


) 


swapReferences( a, i, right - 1);  // Restore pivot 


if( k <= i) 
quickSelect( a, left, i - 1, k ); 
else if( k » i*1) 
quickSelect( a, i * 1, right, k ); 
} 
else // Do an insertion sort on the subarray 
insertionSort( a, left, right ); 





图 7-17 快速 选择 的 主 例 程 


7.8 排序 算法 的 一 般 下 界 


虽然 我 们 得 到 一 些 OCN log N) 的 排序 算法 , 但 是 , 尚 不 清楚 我 们 是 否 还 能 做 得 更 好 。 本 节 
我 们 证 明 , 任何 只 用 到 比较 的 排序 算法 在 最 坏 情况 下 都 需要 Q(N log N) 次 比较 , 因此 归并 排序 
和 堆 排 序 在 一 个 常数 因子 范围 内 是 最 优 的 。 该 证 明 可 以 扩展 到 证 明 对 只 用 到 比较 的 任意 排序 算 
法 都 需要 Q(N log N) 次 比较 , 甚至 平均 情况 也 是 如 此 。 这 意味 着 快速 排序 在 相差 一 个 常数 因子 
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的 范围 内 平均 是 最 优 的 。 

特别 地 , 我 们 将 证 明 下 列 结果 : 只 用 到 比较 的 任何 排序 算法 在 最 坏 情况 下 都 需要 [ log (NT) | 
次 比较 , 并 平均 需要 log(N1) 次 比较 。 我 们 假设 所 有 N 个 元 素 是 互 异 的 , 因为 任何 排序 算法 都 
必须 要 在 这 种 情况 下 正常 运行 。 
决策 树 

决策 树 ( decision tree) 是 用 于 证 明 下 界 的 抽象 概念 。 在 我 们 这 里 , 决策 树 是 一 棵 二 又 树 。 每 
个 节点 表示 在 元 素 之 间 一 组 可 能 的 排序 , 它 与 已 经 进行 的 比较 一 致 。 比 较 的 结果 是 树 的 边 。 

图 7-18 中 的 决策 树 表示 将 三 个 元 素 a、b 和 < 排序 的 算法 。 算 法 的 初始 状态 在 根 处 (我 们 将 
可 互 换 地 使 用 术语 状态 和 节点 )。 没 有 进行 比较 , 因此 所 有 的 顺序 都 是 合法 的 。 这 个 特定 的 算 
法 进行 的 第 一 次 比较 是 比较 a A bo 两 种 比较 的 结果 导致 两 种 可 能 的 状态 。 如 果 a <b, 那么 只 
有 三 种 可 能 性 被 保留 。 如 果 算法 到 达 节 点 2, 那么 它 将 比较 a 和 c。 其 他 算法 可 能 会 做 不 同 的 工 
TE; 不 同 的 算法 可 能 有 不 同 的 决策 树 。 车 a > c, 则 算法 进入 状态 5。 由 于 只 存在 一 种 相 容 的 顺 
F, 因此 算法 可 以 终止 并 报告 它 已 经 完成 了 排序 。 若 a <c, 则 算法 尚 不 能 终止 , 因为 存在 两 种 
可 能 的 顺序 , 它 还 不 能 肯定 哪 种 是 正确 的 。 在 这 种 情况 下 , 算法 还 将 需要 一 次 比较 。 





图 7:18 三 元 素 排序 的 决策 树 


通过 只 使 用 比较 进行 排序 的 每 一 种 算法 都 可 以 用 决策 树 表示 。 当 然 , 只 有 输入 数据 非常 少 的 
情况 画 决 策 树 才 是 可 行 的 。 由 排序 算法 所 使 用 的 比较 次 数 等 于 最 深 的 树叶 的 深度 。 在 我 们 的 例子 
H, 该 算法 在 最 坏 的 情况 下 使 用 了 三 次 比较 。 所 使 用 的 比较 的 平均 次 数 等 于 树叶 的 平均 深度 。 由 
于 决策 树 很 大 , 因此 必然 存在 一 些 长 的 路 径 。 为 了 证 明 下 界 , 需要 证 明 某 些 基本 的 树 的 性 质 。 

引 理 7.1 令 7 是 深度 为 4 的 二 叉 树 , 则 7 最 多 有 2 片 树叶 。 

证 明 : 

用 数学 归纳 法 证 明 。 如 果 d =0, 则 最 多 存在 一 片 树叶 , 因此 基准 情况 为 真 。 若 4 >0, WR 
们 有 一 个 根 , 它 不 可 能 是 树叶 , 其 左 子 树 和 右 子 树 中 每 一 个 的 深度 最 多 是 d - 1。 由 归纳 假设 ， 
每 一 棵 子 树 最 多 有 2” 片 树叶 , 因此 总 数 最 多 2" 片 树叶 ， 由 此 该 引 理 得 证 。 口 

引 理 7.2 具有 上 片 树叶 的 二 叉 树 的 深度 至 少 是 [ log L 1。 
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证 明 : Ti 
由 前 面 的 引 理 立 即 推出 。 
定理 7.6 只 使 用 元 素 间 比较 的 任何 排序 算法 在 最 坏 情况 下 至 少 需 要 [ log INT) 次 比较 。 
证 明 : 
对 N 个 元 素 排序 的 决策 树 必 然 有 N! 片 树叶 。 从 上 面 的 引 理 即 可 推出 该 定理 。 口 
定理 7.7 只 使 用 元 素 间 比较 的 任何 排序 算法 均 需 要 Q(N log N) 次 比较 。 
WERA: 
由 前 面 的 定理 可 知 , 需要 log(CN1) 次 比较 。 
log(N!) =log( N(N-1)(N-2).…(2)(1)) 
=log N *log( N - 1) +log(N-2)+.""+log2+log1 
io d wa 1) — ++ log( N/2) 


> eL Sog N - 2- = QCN log N) 器 


这 种 类 型 的 下 界 论 断 ， tn Jr, 有 时 叫 作 信息 - 理论 下 界 (information- 
theoretic lower bound) 。 一 般 定理 说 的 是 , 如 果 存 在 P 种 不 同 的 可 能 情况 要 区 分 , 而 问题 是 YES/ 
NO 的 形式 , 那么 通过 任何 算法 求解 该 问题 在 某 种 情形 下 总 需要 | log P | 个 问题 。 对 于 任何 基于 
比较 的 排序 算法 的 平均 运行 时 间 , 证 明 类 似 的 结果 也 是 可 能 的 。 这 个 结果 由 下 列 引 理 导出 , 我 
们 将 它 留 作 练习 : 具有 上 片 树叶 的 任意 二 叉 树 的 平均 深度 至 少 为 log Lo 


7.9 选择 问题 的 决策 树 下 界 


7.8 节 引 入 了 决策 树 的 讨论 来 证 明基 础 下 界 ， 即 任意 基于 比较 的 排序 算法 都 必须 用 到 大 约 
N log NWN 次 比较 。 本 节 我 们 证 明 对 NN 个 元 素 的 集合 做 选择 的 额外 下 界 ， 具 体 为 : 

1. 找到 最 小 元 需要 NN - 1 次 比较 。 

2. 找到 最 小 的 两 个 元 需要 N+|[ log N 1-2 次 比较 。 

3. 找到 中 间 元 需要 [3N/2 1- O(log N) KEX 

除了 找 中 间 元 的 问题 外 ， 其 他 问题 的 下 界 都 是 紧 的 : 存在 算法 ， 其 所 用 的 比较 次 数 精确 等 
于 给 定数 目 。 在 所 有 证 明 中 ， 假 设 所 有 元 素 是 不 同 的 。 

引 理 7.3 如果 决策 树 所 有 的 叶子 都 有 深度 d 或 更 深 ， 则 决策 树 必须 至 少 有 2d 个 叶子 。 

WERA: 

注意 到 决策 树 中 所 有 非 叶子 节点 都 有 两 个 孩子 。 证 明 用 归纳 法 ， 从 引 理 7. 1 导出 。 回 

找 最 小 元 的 下 界 的 问题 1 是 最 容易 证 明 的 。 

定理 7.8 对 任何 基于 比较 的 算法 ， 找 最 小 元 都 必须 至 少 用 N=-1 次 比较 。 

证 明 : 

除 最 小 元 以 外 的 任意 元 素 x， 都 必须 跟 其 他 某 些 元 素 y 比较 一 次 ， 并 且 得 出 x 比 y 大 的 
结论 。 和 否则 ， 如 果 存 在 两 个 不 同 的 元 素 ， 且 它们 从 未 比 任何 其 他 元 素 大 ， 那 么 两 者 都 可 以 

是 最 小 元 。 口 

引 理 7.4 从 和 个 元 素 中 找 最 小 元 的 决策 树 必 须 至 少 有 2 >” "个 叶子 。 

WRR: 

根据 定理 7.8， 这 棵 决策 树 的 所 有 叶子 都 有 深度 W - 1 或 更 深 。 则 本 引 理 的 结论 可 从 引 理 
7.3 导 出。 O 

选择 的 界 有 些 复杂 ， 需 要 看 一 下 决策 树 的 结构 。 这 可 以 让 我 们 证 明 问 题 2 和 问题 3 的 
下 界 。 


引 理 7.5 从 个 元 素 中 找 第 小 元 素 的 决策 树 一 定 有 至 少 ( ， pres. 
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WEBB: 


观察 任意 能 够 正确 识别 第 小 元 i 的 算法 ， 它 必定 能 证 明 所 有 其 他 元 素 x 或 者 比 ! 大, 或 
者 比 上 小 。 和 否则 ， 它 可 能 无 论 * 比 t 大 还 是 小 都 给 出 同样 的 回答 ， 而 两 种 情况 下 的 答案 不 可 能 


是 一 样 的 。 于 是 树 中 的 每 个 叶子 除了 表示 第 小 元 之 外 ， 也 表示 已 经 被 识别 出 来 的 最 小 的 
个 元 。 
令 了 为 决策 树 。 考 虑 两 个 集合 : 代表 最 小 的 -1 
个 元 素 的 8 = la, s, =, mal, URET kh 
元 的 剩余 的 元 素 集合 R。 将 7 中 对 5 和 上 两 集合 元 素 进 yp (ag 
行 的 所 有 比较 清除 掉 ， 得 到 一 棵 新 的 决策 树 7'。 因 为 5 


中 的 任意 元 素 都 比 尺 中 的 元 素 小 ， 所 以 比较 用 的 树 节点 
及 其 右 子 树 可 以 从 了 中 删除 ， 而 不 会 损失 任何 信息 。 


k-1 


图 7-19 展示 了 节点 可 以 如 何 被 剪 枝 。 RIT pr 
组 成 的 S 的 序列 沿 着 同样 的 节点 路 径 到 达 同 样 的 叶子 。 cl ， 最 大 的 四 个 元 素 为 R= dd, 
因为 了 可 以 识别 第 小 元 ， 而 RR 中 的 最 小 元 就 是 那个 元 e, f. g|。 对 于 这 种 RR 和 $5 的 
Z, 于 是 7 可 以 识别 R 中 的 最 小 元 。 所 以 7' 必 须 至 少 具 选择 ,5b 和 /之 间 的 比较 在 形成 
有 2 =2" “个 叶子 。 这 些 7' 中 的 叶子 直接 对 应 着 代表 SIUE 
5 的 2" 个 叶子 。 因 为 5 有 (|) 种 选择 ， 所 以 7 中 就 至 少 有 ( | po rae. D 
一 个 对 引 理 7. 5 的 直接 应 用 使 我 们 可 以 证 明 找 第 二 小 元 以 及 中 位 数 的 下 界 。 
定理 7.9 任何 基于 比较 找 第 小 元 的 算法 必须 至 少 用 N+|Jog (aei 
证 明 : 
从 引 理 7.5 和 引 理 7. 2 立刻 可 以 得 到 结论 。 oO 
定理 7. 10 ”任何 基于 比较 找 第 二 小 元 的 算法 必须 至 少 用 N+[ log N 1-2 次 比较 。 
证 明 : i 
应 用 定理 7.9, 将 =2 代入 ， 就 得 到 N-2+Tlog NT. 口 
定理 7. 11 任何 基于 比较 找 中 位 数 的 算法 必须 至 少 用 [3N/2 1- O(log N) 次 比较 。 
证 阴 : 
应 用 定理 7.9, 将 k=[N/2 ] 代 入 。 E 
选择 的 下 界 不 是 紧 的 ， 也 不 是 最 著名 的 ， 详 情 见 参考 文献 。 
7.10 对手 下界 
虽然 决策 树 论证 可 以 证 我 们 证 明 一 些 排序 和 比较 问题 的 下 界 ， 但 一 般 那 些 界 都 不 是 紧 的 ， 
有 些 情况 下 甚至 过 于 平凡 。 


以 找 最 小 元 问题 为 例 。 因 为 最 小 元 存在 个 可 能 的 选择 ， 所 以 由 决策 树 论证 产生 的 信 


息 理 


论 下 界 只 是 log N。 在 定理 7.8 中 ,我 们 曾 证 明 界 为 N -1, 使 用 的 本 质 上 是 一 种 对 手 论证 的 方 


法 。 本 节 我 们 将 这 种 论证 拓展 ， 用 以 证 明 下 面 的 下 界 : 
4. 同时 找到 最 小 和 最 大 元 需要 [3N/2 1-2 次 比较 。 
回顾 我 们 对 “任意 找 最 小 元 的 算法 都 至 少 需要 -1 次 比较 ”的 证 明 : 
除 最 小 元 以 外 的 任意 元 素 Y， 都 必须 跟 其 他 某 些 元 素 y 比较 一 次 ， 并 且 得 出 x 比 y 
大 的 结论 。 否 则 ， 如 果 存 在 两 个 不 同 的 元 素 ， 且 它们 从 未 比 任何 其 他 元 素 大 ， 那 么 两 
者 都 可 以 是 最 小 元 。 
这 就 是 对 手 论证 的 基本 思想 ， 它 有 几 个 基本 步骤 : 
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1. 证 明 必须 由 解决 某 个 问题 的 任意 算法 来 获得 一 些 信息 的 基本 量 。 

2. 在 算法 的 每 一 步 ， 对 手 将 维护 一 个 输入 ， 它 与 该 算法 当前 提供 的 所 有 答案 保持 一 致 。 

3. 论证 在 步骤 不 足 的 情况 下 ， 存 在 多 种 一 致 的 输入 ， 可 以 给 算法 提供 不 同 的 答案 ; 于 是 
得 出 算法 还 没有 完成 足够 多 的 步骤 ， 因 为 如 果 算 法 要 在 那个 点 上 给 出 一 个 答案 ， 对 手 就 可 以 给 
出 一 种 输入 使 得 答案 是 错 的 。 

我 们 将 用 这 种 证 明 模板 重新 证 明 找 最 小 元 的 下 界 ， 来 看 看 这 种 方法 是 怎么 工作 的 。 

定理 7.8( 重 述 ) ”对 任何 基于 比较 的 算法 ， 找 最 小 元 都 必须 至 少 用 NN -1 次 比较 。 

新 证 明 : 

初始 将 每 个 元 素 标记 为 2 。 当 宣布 一 个 元 素 比 另 一 个 大 的 时 候 ， 我 们 将 其 标记 更 改 为 已 。 
这 个 更 改 就 代表 了 一 个 单位 的 信息 。 初 始 状态 下 每 个 未 知 元 素 有 个 0 值 ， 但 是 因为 还 没有 做 任 
何 比较 ， 所 以 这 个 序 跟前 面 的 答案 是 一 致 的 。 

两 元 素 之 间 的 一 次 比较 或 者 发 生 在 两 个 未 知 元 素 之 间 ， 或 者 其 中 至 少 一 个 元 素 已 经 从 最 小 
元 的 候选 中 删 掉 了 。 图 7-20 展示 了 我 们 的 对 手 将 如 何 基于 提问 来 构建 输入 值 。 














答案 
将 y 标 记 为 E 
x«y 无 变化 将 y 值 改 为 被 删 
除 的 元 素 个 数 
| 其 他 一 致 0 无 变化 “| ”无 变化 





图 7-20 对 手 随 着 算法 的 运行 为 找 最 小 元 构建 输入 


如 果 比 较 是 在 两 个 未 知 元 素 间 发 生 的 ， 第 一 个 元 比较 小 ， 第 二 个 元 就 自动 被 删除 ， 提 供 了 一 
个 单位 的 信息 。 于 是 我 们 给 它 ( 不 可 撤销 地 ) 分 配 一 个 大 于 0 的 数字 ， 最 方便 的 是 取 被 删除 的 元 素 
个 数 。 如 果 比 较 发 生 在 一 个 删除 的 数 和 一 个 未 知 元 之 间 ， 那 么 删除 的 数 (根据 前 面 的 说 明 ， 该 数 
字 大 于 0) 将 是 比较 大 的 ， 于 是 什么 都 不 会 变 ,没有 删除 ， 也 没有 获得 信息 。 如 果 两 个 删除 的 数字 
进行 比较 ， 那么 它们 将 是 不 同 的 ， 可 得 一 致 的 答案 ,仍然 是 什么 都 不 变 ， 也 没有 提供 信息 。 口 

最 终 ， 我 们 需要 得 到 N -1 个 单位 的 信息 ， 而 一 次 比较 最 多 只 能 提供 1 个 单位 ， 所 以 需要 
至 少 N-1 次 比较 。 
同时 找 最 小 和 最 大 元 的 下 界 

我 们 可 以 同样 用 这 种 技术 来 证 明 同 时 找 最 小 和 最 大 元 的 下 界 。 观 察 到 除了 一 个 元 素 外 ， 其 
他 所 有 元 素 都 必须 从 最 小 元 候选 中 删除 ， 并 且 除 了 一 个 元 素 外 ， 其 他 所 有 元 素 都 必须 从 最 大 元 
修 选中 删除 ， 所 以 任何 算法 都 必须 获得 2N -2 个 单位 的 信息 。 然 而 ,一 次 x<y 的 比较 可 以 同 
时 从 最 大 元 候选 中 删 掉 x， 并 且 从 最 小 元 候选 中 删 掉 y， 所 以 一 次 比较 可 以 提供 两 个 单位 的 信 
息 。 于 是 ,这 种 论证 就 只 能 得 到 一 个 平凡 的 N-1 下 界 。 我 们 的 对 手 得 做 更 多 的 工作 ， 以 保证 
不 给 出 超过 其 需要 的 两 个 单位 的 信息 。 

要 做 到 这 一 点 ， 每 个 元 素 初 始 都 将 无 标记 。 如 果 它 “ 赢 ” 了 一 次 比较 ( 即 宣布 它 比 某 个 元 
素 大 ) ， 它 就 得 到 一 个 下 。 如 果 它 “ 输 ” 了 一 次 比较 ( 即 宣 布 它 比 某 个 元 素 小 ) ， 它 就 得 到 一 个 
L。 最 终 ， 除 了 两 个 元 素 外 ， 其 他 所 有 元 素 都 应 该 是 孢 。 我 们 的 对 手 将 确保 ， 如 果 比 较 的 是 两 
个 未 标记 的 元 素 ， 将 只 给 出 两 个 单位 的 信息 。 这 样 的 情况 只 能 发 生 [ N/2 Sk, FR fei s. 
只 能 一 次 获取 一 个 单位 ， 就 得 到 了 界 的 证 明 。 

定理 7. 12 ”对 任何 基于 比较 的 算法 ， 同 时 找到 最 小 和 最 大 元 都 必须 至 少 用 [3N/2 1-2 次 
比较 。 





CO BAAR, BEI unknown 的 首 字 母 。 一 一 译 者 注 
O ”表示 删除 ， 即 英文 eliminated 的 首 字母 。 一 一 译 者 注 
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WEBB: 

基本 思路 是 ， 如 果 两 个 元 素 是 未 标记 的 ， 则 对 手 必须 给 出 两 个 单位 信息 。 和 否则 ， 其 中 一 个 元 
素 或 者 有 歼 或 者 有 Z( 可 能 两 者 此 有 ) 。 在 这 种 情况 下 ， 对 手 只 要 足够 小 心 就 能 够 避免 给 出 两 个 单 
位 的 信息 。 例 如 ， 如 果 一 个 元 素 x* 有 WW， 而 男 一 个 元 素 y 是 未 标记 的 ， 对 手 就 可 以 说 x>y， 从 而 
再 次 令 x ho IFEX y 给 出 了 一 个 单位 的 信息 ,但 是 对 x 就 没有 新 的 信息 。 容 易 看 出 ， 如 果 比 较 
至 少 涉及 了 一 个 未 标记 的 元 素 ， 原 则 上 对 手 没有 理由 非 要 给 出 超过 一 个 单位 的 信息 。 

剩 下 要 证 明 的 是 ， 对 手 可 以 维护 与 其 答案 一 致 的 值 。 如 果 两 个 元 素 都 是 未 标记 的 ， 则 显然 
他 们 可 以 被 安然 赋予 与 比较 答案 一 致 的 值 ， 这 种 情况 产生 两 个 单位 信息 。 

否则 ， 如 果 比 较 涉及 的 其 中 一 个 元 素 是 未 标记 的 ， 它 可 以 被 首次 赋值 ， 该 值 与 另 一 元 素 在 
比较 中 的 结果 一 致 。 这 种 情况 产生 一 个 单位 信息 。 

否则 比较 涉及 的 两 个 元 素 都 是 有 标记 的 。 如 果 两 个 都 是 网， 则 我 们 可 以 根据 当前 的 赋值 
给 出 一 致 的 答案 ,什么 信息 都 不 产生 。° 

否则 至 少 其 中 一 个 元 素 只 有 上 或 只 有 WW。 我 们 将 允许 该 元 做 元 余 比 较 ( 如 果 是 就 让 它 再 输 ， 
如 果 是 WW 就 让 它 再 启 )， 在 必要 时 ， 它 的 值 可 以 很 容易 基于 比较 中 的 男 一 元 素 进 行 调整 (L 如 
果 需 要 可 以 降低 ， 罗 如 果 需 要 可 以 升 高 ) 。 这 会 为 比较 中 的 另 一 个 元 素 产 生 至 多 一 个 单位 的 信 
息 ， 也 可 能 是 零 。 图 7-21 总 结 了 对 手 的 行动 ,将 y 作为 所 有 情况 下 值 都 发 生变 化 的 主要 元 素 。 

















max(xl, y) 
L 


min(x-1, y) 














与 上 述 某 种 情况 对 称 











Bl 7-21- 对 手 随 著 算 法 的 运行 为 同时 找 最 大 和 最 小 元 构建 输入 


BALN/2 欣 比 较 产 生 两 个 单位 的 信息 ， 意 味 着 剩 下 的 信息 ， 即 2V -2 -2L N/2 个 单位 ,每 
个 都 必须 通过 一 次 比较 来 获得 。 于 是 需要 比较 的 总 次 数 至 少 是 2N -2 -LN/2]=[3N/21-2。 O 

容易 看 出 这 个 界 是 可 以 达到 的 。 将 元 素 配 对 ， 并 且 每 对 之 间 进 行 一 次 比较 。 然 后 在 胜 者 中 
找 最 大 元 ， 败 者 中 找 最 小 元 。 


7. 11 线性 时 间 的 排序 : 桶 排序 和 基数 排序 
虽然 我 们 在 7. 8 节 证 明了 任何 只 使 用 比较 的 一 般 排序 算法 在 最 坏 情 况 下 需要 Q(N log N) 时 


O 有 可 能 当前 对 两 个 元 素 的 赋值 都 是 一 样 的 ， 在 这 种 情况 下 ， 我 们 可 以 把 所 有 当前 值 比 Y 大 的 元 素 都 加 2， 然 
后 对 y 加 1 来 打破 平局 。 
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H, 但 是 别 忘 了 ， 在 某 些 特殊 情况 下 以 线性 时 间 进 行 排序 仍然 是 可 能 的 。 

一 个 简单 的 例子 是 桶 排序 ( bucket sott) 。 为 使 桶 排序 能 够 正常 工作 ， 必 须要 有 一 些 附加 的 
信息 。 输 入 数据 4 ，4,，…，A4, 必 须 仅 由 小 于 M 的 正 整数 组 成 (显然 还 有 可 能 对 此 进行 扩充 )。 
如 果 是 这 种 情况 ， 那 么 算法 很 简单 : 使 用 一 个 大 小 为 M WA count 的 数组 ， 初 始 化 为 全 0。 
于 是 ，count 有 M 个 单元 (或 称 为 桶 ) ， 初 始 为 空 。 当 读 人 A 时 ，count[4;] 增 1。 在 所 有 的 
输入 数据 被 读 和 人 后， 扫描 数 组 count, ， 打 印 出 排序 后 的 表 。 该 算法 用 时 O(M + N) ， 其 证 明 留 
作 练 习 。 如 果 M OC(N) , ， 那 么 总 时 间 就 是 O(CN) 。 

虽然 这 个 算法 似乎 打破 了 下 界 ， 但 事实 上 并 没有 ， 因 为 它 使 用 了 比 简单 比较 更 为 强大 的 操 
作 。 通 过 使 适当 的 桶 增值 ， 算 法 在 单位 时 间 内 实质 上 执行 了 一 个 M -路 比较 。 这 类 似 于 用 在 可 
扩散 列 上 的 策略 ( 见 5.9 节 )。 显 然 这 不 属于 那 种 下 界 业 已 证 明 的 模型 一 一 

不 过 ， 该 算法 确实 提出 了 用 于 证 明 下 界 的 模型 的 合理 性 问题 。 这 个 模型 实际 上 是 一 个 强 模 
型 ， 因 为 通用 的 排序 算法 不 能 对 它 可 以 期 望 见 到 的 输入 类 型 做 假设 ， 而 是 必须 仅仅 基于 排序 信 
息 做 一 些 决策 。 很 自然 ， 如 果 存 在 额外 的 可 用 信息 ， 我 们 应 该 有 望 找到 更 为 有 效 的 算法 ， 和 否则 
这 额外 的 信息 就 被 浪费 了 。 

尽管 桶 排序 看 似 太 平凡 而 用 处 不 大 ， 但 是 实际 上 却 存在 许多 其 输入 只 是 一 些小 整数 的 情况 ， 
使 用 像 快 速 排序 这 样 的 排序 方法 真 的 是 小 题 大 作 了 。 一 个 这 样 的 例子 便 是 基数 排序 (radix sort) 。 

基数 排序 有 时 候 也 叫 卡片 排序 ， 因 为 它 曾 用 于 对 老式 穿孔 卡片 进行 排序 ， 直 到 现代 计算 机 
问世 。 假 设 我 们 有 值 域 从 0 ~999 的 10 个 数字 要 排序 。 一 般 地 ， 对 某 常 数 p 考虑 值 域 从 0 ~b - 
1 的 NN 个 数字 。 显 然 我 们 不 能 用 桶 排序 ， 那 会 有 太 多 的 桶 了。 窍门 是 用 几 趟 桶 排序 。 自 然 的 算 
法 是 对 最 高 位 的 “数字 ”( 数字 是 以 5 为 基数 的 ) 用 桶 排序 ， 然 后 是 次 高 位 ， 以 此 类 推 。 但 是 
一 种 更 简单 的 思路 是 以 相反 的 顺序 来 执行 桶 排序 ， 从 最 低位 “数字 ” 先 开始 。 当 然 ， 可 能 有 
多 个 数落 进 同一 个 桶 里 ， 并 且 与 原始 桶 排序 不 同 的 是 ， 这 些 数 可 以 是 不 同 的 ， 所 以 我 们 把 它们 
存在 一 个 表 里 。 每 一 趟 都 是 稳定 的 : 当前 位 数字 相同 的 这 些 元 素 仍然 保留 前 几 赵 所 确定 的 顺 
序 。 图 7-22 中 的 踪迹 展示 了 对 前 十 个 立方 数 随机 排列 的 序列 64, 8, 216, 512, 27, 729, 0, 
1, 343, 125 进行 排序 的 结果 (我 们 通过 补 0 来 使 十 位 和 百 位 数字 更 清晰 ) 。 在 第 一 趟 之 后 ,元 
素 按 最 低位 有 序 。 一 般 地 ， 在 第 让 趟 之 后 ,元素 按 第 低位 有 序 。 所 以 最 终 元 素 就 完全 有 序 了。 
要 看 到 算法 是 能 用 的 ， 注 意 ， 唯 一 可 能 的 失败 会 发 生 在 两 个 数 从 同一 个 桶 里 出 来 时 出 错 了 顺序 。 
但 是 前 面 几 趟 保证 了 当 几 个 数 进 入 同一 个 桶 时 ， 它 们 是 有 序 进 入 的 。 运 行 时 间 是 OCpCN +b)), 
其 中 是 趟 数 ，N 是 待 排 元 素 个 数 ，" 是 桶 的 个 数 。 





初始 元 素 : 064, 008, 216, 512, 027, 729, 000, 001, 343, 125 
按 个 位 排序 : 000, 001, 512, 343, 064, 125, 216, 027, 008, 729 
按 十 位 排序 : 000, 001, 008, 512, 216, 125, 027, 729, 343, 064 
按 百 位 排序 : 000, 001, 008, 027, 064, 125, 216, 343, 512, 729 








7-22 ”基数 排序 的 踪迹 


基数 排序 的 一 个 应 用 是 将 字符 串 排 序 。 如 果 所 有 字符 串 都 有 同样 的 长 度 LL， 则 对 每 个 字符 
使 用 桶 ， 我 们 可 以 实现 在 0( NL) 时 间 内 的 基数 排序 。 此 问题 最 直截了当 的 做 法 在 图 7-23 中 给 
出 。 在 代码 中 ， 我们 假设 所 有 字符 都 是 ASCI 码 ， 位 于 Unicode 字符 集 的 前 256 位 。 在 每 一 趟 
中 ， 我 们 把 一 个 元 素 加 到 合适 的 桶 里 ， 然 后 当 所 有 的 桶 都 填 好 后 ， 我 们 逐步 走 过 这 些 桶 ， 把 所 
有 东西 倒 回 到 数组 里 去 。 注 意 ， 当 一 个 桶 被 十 好 ， 又 在 下 一 趟 被 清空 时 ， 从 当前 趟 得 到 的 顺序 
是 被 保留 的 。 

计数 基数 排序 ( counting radix sort) 是 基数 排序 的 另 一 种 实现 ， 它 避免 使 用 ArrayList。 取 
而 代 之 的 是 一 个 计数 器 ， 记 录 每 个 桶 里 会 装 多 少 个 元 素 ; 这 个 信息 可 以 放 在 一 个 数组 count 
里 ， 于 是 count[k] 就 是 桶 kk 中 元 素 的 个 数 。 然 后 我 们 可 以 用 另 一 个 数组 offset ， 使 得 
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offset[Kk] 表 示 值 严格 小 于 k 的 元 素 的 个 数 。 则 当 我 们 在 最 后 的 扫描 中 第 一 次 见 到 k 时 ， 
offset[k] 告 诉 我 们 一 个 可 以 把 k 写 进去 的 有 效 的 数组 位 置 (但 是 不 得 不 为 这 个 写 操作 使 用 一 
个 临时 数组 ) ， 这 一 步 做 完 后 ，offset[k] 就 加 1。 计 数 基 数 排序 因此 不 需要 维护 一 堆 表 。 要 
做 更 进一步 的 优化 ,我们 还 可 以 不 用 offset, ， 而 是 重用 count 数组 。 修 改 方法 是 ， 一 开始 让 
count[k +1] 表 示 桶 k 中 元 素 的 个 数 。 等 这 个 信息 计算 完成 后 ， 我 们 按 下 标 从 小 到 大 扫描 
count 数组 ， 把 count[k] 加 上 count[k -1]。 容 易 验证 ， 这 样 扫描 后 ，ceunt 数组 里 就 存 
TIREX offset 数组 里 存 的 完全 一 样 的 信息 。 


/* 
* Radix sort an array of Strings 
* Assume all are all ASCII 
* Assume all have same length 
*/ 
public static void radixSortA( String [ ] arr, int stringLen ) 


{ 


Oo 4 DU AWN — 


final int BUCKETS = 256; 
ArrayList<String> [ ] buckets = new ArrayList«»[ BUCKETS ]; 


for( int i = 0; i < BUCKETS; i++ ) 
buckets[ i ] = new ArrayList<>( ); 


for( int pos = stringLen - 1; pos >= 0; pos-- ) 


{ 
for( String s : arr ) 
buckets[ s.charAt( pos ) ].add( s ); 


int idx = 0; 
for( ArrayList«String» thisBucket : buckets ) 
ja 
for( String s : thisBucket ) 
arr[ idx++ ] = s; 


thisBucket.clear( ); 





图 7-23 一 字符 串 的 基数 排序 的 简单 实现 ， 用 一 个 arrayList 做 桶 


图 7-24 给 出 了 计数 基数 排序 的 一 个 实现 。 第 18 ~ 27 行 实现 了 上 述 逻 辑 ， 其 中 假设 元 素 存 
储 在 数组 in 里 ， 单 趟 排序 的 结果 存储 在 数组 out 里 。 开 始 时 ，in 代表 arr, out 代表 临时 
数组 buffer。 每 趟 排序 后 ， 我 们 交换 in 和 out 的 和 角色。 如果 趟 数 是 偶数 次 ， 则 最 后 out 引 
用 的 是 arr， 于 是 排序 就 结束 了 。 否 则 ,我们 得 把 buffer 复制 回 arr. 

一 般 地 ， 计 数 基数 排序 比 用 ArrayList 要 好 ,但 是 它 在 定位 方面 较 差 (out 不 是 顺序 填 
入 的 ) ， 所 以 令 人 惊讶 的 是 ， 它 并 不 总 是 比 用 一 个 ArrayList 数组 更 快 。 

我 们 可 以 把 两 个 版 本 的 基数 排序 中 的 任 一 个 扩展 为 可 以 处 理 变 长 的 字符 串 。 基 本 算法 是 ， 
首先 将 字符 串 按 其 长 度 排 序 。 我 们 并 不 看 全 部 的 字符 串 ， 而 是 只 看 那些 我 们 已 知 是 充分 长 的 字 
符 串 。 由 于 字符 串 长 度 都 是 小 整数 ， 所 以 初始 的 长 度 排序 可 以 用 一 一 桶 排序 ! 图 7-25 给 出 了 
基数 排序 的 这 个 带 ArrayList 的 实现 。 这 里 ， 第 19 ~ 20 行将 单词 按照 长 度 分 组 放 进 桶 里 ， 然 
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后 在 第 22 ~ 25 行将 它们 放 回 数组 。 第 32 ~ 33 行 只 查看 那些 在 位 置 pos. 上 有 一 个 字符 的 字符 
串 ， 可 以 利用 第 27 行 和 第 30 行 维护 的 那个 变量 startingIndex 来 做 这 件 事 。 除 了 那些 不 
同 , 图 7-25 的 第 27 ~43 行 和 图 7-23 的 第 14 ~ 27 行 是 一 样 的 。 
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/* 
* Counting radix sort an array of Strings 
* Assume all are all ASCII 


* Assume all have same length 
x/ 
public static void countingRadixSort( String [ ] arr, int stringLen ) 
{ 
final int BUCKETS = 256; g 


int N = arr.length; 
String [ ] buffer = new String [N ]; 


String [ ] in = arr; 
String [ ] out = buffer; 


for( int pos = stringLen - 1; pos >= 0; pos-- ) 
{ 
int [ ] count = new int [ BUCKETS + 1 ]; 


for( int i = 0; i < N; i++ ) 
count[ in[ i ].charAt( pos ) + 1 J++; 


for( int b = 1; b <= BUCKETS; b++ ) 
count[ b ] += count[ b - 1 ]; 


for( int i = 0; i < N; i++ ) 
out[ count[ in[ i ].charAt( pos ) J++ ] = in[ i]; 


// swap in and out roles 
String [ ] tmp = in; 
in = out; 
out = tmp; 


// if odd number of passes, in is buffer, out is arr; so copy back 
if( stringLen % 2 == 1 ) 
for( int i = 0; i < arr.length; i++ ) 
out[ i ] = inl i ]; 





图 7-24 定 长 字符 串 的 计数 基数 排序 


这 个 版 本 的 基数 排序 的 运行 时 间 关 于 所 有 字符 串 中 字符 总 个 数 是 线性 的 (在 第 33 行 每 个 字符 
正好 出 现 一 次 ， 而 第 39 行 的 语句 跟 第 33 行 执行 了 完全 一 样 多 的 次 数 ) 。 当 串 中 的 字符 是 从 一 个 合 
理 的 小 的 字母 集合 取 的 ， 而 且 字 符 串 或 者 是 比较 短 、 或 者 是 非常 相似 时 ， 则 针对 字符 串 的 基数 排 
序 会 表现 非常 好 。 因 为 0( NN log N) 的 基于 比较 的 排序 算法 在 每 次 字符 串 比 较 中 一 般 只 查看 少量 的 
字符 ， 所 以 一 旦 字符 串 的 平均 长 度 开 始 变 大 ， 基 数 排序 的 优势 就 会 减 小 甚至 完全 丧失 。 
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1 /* 
2 * Radix sort an array of Strings 
3 * Assume all are all ASCII 
4 * Assume all have length bounded by maxLen 
5 x/ 
6 public static void radixSort( String [ ] arr, int maxLen ) 
7 { 
8 final int BUCKETS = 256; 
9 
10 ArrayList<String> [ ] wordsByLength = new ArrayList<>[ maxLen + 1 ]; 
11 ArrayList<String> [ ] buckets = new ArrayList<>[ BUCKETS ]; 
12 
13 for( int i = 0; i < wordsByLength.length; i++ ) 
14 wordsByLength[ i ] = new ArrayList<>( ); 
15 
16 for( int i = 0; i < BUCKETS; i++ ) 
17 buckets[ i ] = new ArrayList<>( ); 
18 
19 for( String s : arr ) 
20 wordsByLength[ s.length( ) ].add( s ); 
21 
22 int idx = 0; 
23 for( ArrayList<String> wordList : wordsByLength ) 
24 for( String s : wordList ) 
25 arr[ idx+ ] = s; 
26 
27 int startingIndex = arr.length; 
28 for( int pos = maxLen - 1; pos >= 0; pos-- ) 
29 { 
30 startingIndex -= wordsByLength[ pos + 1 ].size( ); 
31 
32 for( int i = startingIndex; i < arr.length; i++ ) 
33 buckets[ arr[ i ].charAt( pos ) ].add( arr[ i ] ); 
'34 
33 idx = startingIndex; 
36 for( ArrayList<String> thisBucket : buckets ) 
37 { 
38 for( String s : thisBucket ) 
39 -arr[ idx++ ] = s; 
40 
41 thisBucket.clear( ); 
42 } 
43 } 


-A 
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图 7-25 变 长 字符 串 的 基数 排序 


7. 12 ”外 部 排序 


迄今 为 止 , 我 们 考查 过 的 所 有 算法 都 需要 将 输入 数据 装 人 内存。 然而 , 存在 一 些 应 用 程序 ， 
它们 的 输入 数据 量 太 大 装 不 进 内 存 。 本 节 将 讨论 一 些 外 部 排序 ( external sorting) 算 法 , 它们 是 设 
计 用 来 处 理 数量 很 大 的 输入 数据 的 。 
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7.12.1 为 什么 需要 一 些 新 的 算法 

大 部 分 内 部 排序 算法 都 用 到 内 存 可 直接 寻 址 的 事实 。 和 希 尔 排序 用 一 个 时 间 单 位 比较 元 素 
a[i] 和 a[i -hx]。 堆 排序 用 一 个 时 间 单 位 比较 元 素 a[i] 和 a[i * 2 +1]。 使 用 三 数 中 值 分 
割 法 的 快速 排序 以 常数 个 时 间 单 位 比较 a[ left ]、al center ] 和 al right ]。 如 果 输 入 数据 
在 磁带 上 , 那么 所 有 这 些 操作 就 失去 了 它们 的 效率 , 因为 磁带 上 的 元 素 只 能 被 顺序 访问 。 即 使 
数据 在 磁盘 上 , 由 于 转动 磁盘 和 移动 磁头 所 需 的 延迟 ,仍然 存在 实际 上 的 效率 损失 。 

为 了 看 到 外 部 访问 究竟 有 多 慢 , 可 建立 一 个 大 的 随机 文件 , 但 不 能 太 大 以 至 装 不 进 主 存 。 
将 该 文件 读 入 并 用 一 种 有 效 的 算法 对 其 排序 。 将 该 输入 数据 进行 排序 所 花费 的 时 间 与 将 其 读 入 
所 花费 的 时 间 相 比 必然 是 无 足 轻 重 的 , 尽管 排序 是 0(N log NN) 操作 而 读 入 数据 只 不 过 花费 
0(NN) 时 间 。 
7.12.2 外 部 排序 模型 

各 种 各 样 的 海量 存储 装置 使 得 外 部 排序 比 内 部 排序 对 设备 的 依赖 性 要 严重 得 多 。 我 们 将 
考虑 的 一 些 算法 在 磁带 上 工作 , 而 磁带 可 能 是 最 受 限制 的 存储 媒体 。 由 于 访问 磁带 上 一 个 元 
素 需要 把 磁带 转动 到 正确 的 位 置 , 因此 磁带 只 有 以 (两 个 方向 上 ) 连 续 的 顺序 才能 够 被 有 效 
地 访问 。 l 

假设 至 少 有 三 个 磁带 驱动 器 进行 排序 工作 。 我 们 需要 两 个 驱动 器 执行 有 效 的 排序 ， 而 第 三 
个 驱动 器 进行 简化 的 工作 。 如 果 只 有 一 个 磁带 驱动 器 可 用 , 那么 就 产生 了 一 个 问题 : 任何 算法 
都 将 需要 QCN ) 次 磁带 访问 。 
7.12.3 简单 算法 

基本 的 外 部 排序 算法 使 用 归并 排序 中 的 合并 算法 。 设 有 四 盘 磁 带 , Ta, Tas Tas Tos 它们 
是 两 盘 输 入 磁带 和 两 盘 输 出 磁带 。 根 据 算法 的 特点 , 磁带 a 和 磁带 5 或 者 用 作 输 入 磁带 , 或 者 
用 作 输 出 磁带 。 设 数据 最 初 在 7 上 , 并 设 内 存 可 以 一 次 容纳 (和 排序 )M 个 记录 。 一 种 自然 的 
第 一 步 做 法 是 从 输入 磁带 一 次 读 和 人 M AER, 在 内 部 将 这 些 记录 排序 , 然后 再 把 这 些 排 过 序 的 
记录 交替 地 写 到 7 或 7,, 上 。 我 们 将 把 每 组 排 过 序 的 记录 叫 作 一 个 顺 串 (run)。 做 完 这 些 之 后 ， 
倒 回 所 有 的 磁带 。 设 我 们 的 输入 与 希 尔 排序 的 例子 中 的 输入 数据 相同 。 





WR M =3, 那么 在 这 些 顺 串 构造 以 后 , 磁带 将 包含 下 图 所 示 的 数据 。 





现在 Ti 和 To 都 包含 一 些 顺 串 。 我 们 将 每 个 磁带 的 第 一 个 顺 串 取出 并 将 二 者 合并 , 把 结果 
EATE, 该 结果 是 一 个 二 倍 长 的 顺 串 。 注 意 , 合并 两 个 排 过 序 的 表 是 简单 的 操作 ,几乎 不 需 
BA, 因为 合并 是 在 T, 和 7, 前进 时 进行 的 。 然 后 , 我 们 再 从 每 盘 磁带 取出 下 一 个 顺 串 , 合 
Jt, 并 将 结果 写 到 T, 上。 继续 这 个 过 程 ,交替 使 用 T, ITA, HET MTA. We, 或 者 
T, 和 Ta 均 为 空 , 或 者 剩 下 一 个 顺 串 。 对 于 后 者 , 我 们 把 剩 下 的 顺 串 拷贝 到 适当 的 磁带 上 。 将 全 
部 四 盘 磁 带 倒 回 , 并 重复 相同 的 步骤 , 这 一 次 用 两 盘 a 磁带 作为 输入 , 两 盘 b 磁带 作为 输出 , 结 
果 得 到 一 些 4M 的 顺 串 。 继 续 这 个 过 程 直到 得 到 长 为 的 一 个 顺 串 。 
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该 算法 将 需要 | log( N/M) THE, 外 加 一 趟 初始 的 顺 串 构造 。 例 如 , 车 我 们 有 1 000 万 个 记 
x, 每 个 记录 128 个 字 节 , 并 有 4 兆 字 节 的 内 存 , 则 第 一 趟 将 建立 320 个 顺 串 。 此 时 再 需要 九 趟 
以 完成 排序 。 我 们 刚才 的 例子 再 需要 [ log 13/3 1-3 趟 工作 , 见 下 图 所 示 。 





7. 12.4 多 路 合并 

如 果 我 们 有 额外 的 磁带 ,可 以 减少 将 输入 数据 排序 所 需要 的 趟 数 , 通过 将 基本 的 (2- 路 ) 合 
并 扩充 为 六 路 合并 就 能 做 到 这 一 点 。 

两 个 顺 串 的 合并 操作 通过 将 每 一 个 输入 磁带 转 到 每 个 顺 串 的 开头 来 进行 。 然 后 , 找到 较 小 
的 元 素 , 把 它 放 到 输出 磁带 上 , 并 将 相应 的 输入 磁带 向 前 推进 。 如 果 有 大盘 输入 磁带 , 那么 这 
种 方法 以 相同 的 方式 工作 , 唯一 的 区 别 在 于 , 它 发 现 上 个 元 素 中 最 小 的 元 素 稍微 复杂 一 些 。 我 
们 可 以 通过 使 用 优先 队列 找 出 这 些 元 素 中 的 最 小 元 。 为 了 得 出 下 一 个 写 到 磁盘 上 的 元 素 , 我 们 
进行 一 次 deleteMin 操作 。 将 相应 的 磁带 向 前 推进 ,如果 在 输入 磁带 上 的 顺 串 尚未 完成 , 那么 将 
新 元 素 插 人 到 优先 队列 中 。 仍 然 利 用 前 面 的 例子 , 我 们 将 输入 数据 分 配 到 三 盘 磁带 上 。 
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在 初始 顺 串 构造 阶段 之 后 , 使 用 大路 合并 所 需要 的 趟 数 为 [ log, (N/M) 1, 因为 在 每 趟 合并 中 
顺 串 达到 左 倍 大 小 。 对 于 上 面 的 例子 , 公式 成 立 , 因为 [ log, 13/3 1=2。 如 果 我 们 有 10 EGER, 
那么 上 =5， 而 前 一 节 的 大 例子 需要 的 趟 数 将 是 [ log:320 1-4. 





7.12.5 多 相合 并 

上 一 节 讨 论 的 大 路 合并 方案 需要 使 用 2k 盘 磁 带 , 这 对 某 些 应 用 极为 不 便 。 通 过 只 使 用 k+1 
盘 磁 带 也 有 可 能 完成 排序 的 工作 。 作 为 例子 , 我 们 阐述 只 用 三 盘 磁 带 如 何 完成 2- 路 合并 。 ， 

没有 三 盘 磁 带 T, T, AT, TE T, 上 有 一 个 输入 文件 , 它 将 产生 34 个 顺 串 。 一 种 选择 是 在 
T, fü T, 的 每 一 盘 磁 带 中 放 入 17 个 顺 串 。 然 后 可 以 将 结果 合并 到 T, E, 得 到 一 盘 有 17 个 顺 串 
的 磁带 。 由 于 所 有 的 顺 串 都 在 一 盘 磁 带 上 , 因此 现在 必须 把 其 中 的 一 些 顺 串 放 到 7, 上 以 进行 另 
外 的 合并 。 执 行 该 合并 的 逻辑 方式 是 将 前 8 TURA T, 拷贝 到 T, 并 进行 合并 。 这 样 的 效果 是 
对 于 我 们 所 做 的 每 一 趟 合并 又 附加 了 另外 的 半 趟 工作 。 

另 一 种 选择 是 把 原始 的 34 个 顺 串 不 均衡 地 分 成 两 份 。 设 把 21 个 顺 串 放 到 T, 上 而 把 13 个 
顺 串 放 到 T, 上 。 然 后 , 将 13 个 顺 串 合 并 到 T, E, 之 后 磁带 T, 就 变 成 了 空 磁带 。 此 时 , 我 们 可 
以 倒 回 磁带 T, A T,, PAUECÉERUE 13 BUB BJ T, 和 8 个 顺 串 的 T, 合并 到 T, 上 。 此 时 , 我们 合 
并 8 个 顺 串 直到 7, 用 完 为 止 , 这 样 , FET, 上 将 留 下 5 NETET 上 则 有 8 个 顺 串 。 然 后 , 我 
们 再 合并 T, MT, 等 等 。 下 面 的 图 表 显 示 在 每 趟 合并 之 后 每 盘 磁 带 上 的 顺 串 的 个 数 。 

HOM Th Rav o ToO H+ eh HaT, Ned 
串 个 数 “之 后 之 后 之 后 之 后 之 后 之 后 之 后 








T, 0 13 5 0 3 1 0 1 
T, 21 8 0 2 2 0 1 0 
T; 13 0 8 3 0 2 1 0 





顺 串 最 初 的 分 配 有 很 大 的 关系 。 例 如 , 若 22 MERRE T, E, 12 - TE T, 上, 则 第 一 趟 合 
并 后 我 们 得 到 TE 12 个 顺 串 以 及 7, 上 的 10 个 顺 串 。 在 下 一 次 合并 后 , T, 上 有 10 个 顺 串 而 7 
上 有 2 个 顺 串 。 此 时 , 进展 的 速度 慢 了 下 来 , 因为 在 7, 用 完 之 前 只 能 合并 两 套 顺 串 。 这 时 7 
有 8 NER T, EATUR S EE, 我 们 只 能 合并 两 个 顺 串 , 结果 T, 有 6 个 顺 串 且 及 有 2 个 
顺 串 。 再 经 过 3 趟 合并 之 后 , T, 还 有 2 个 顺 串 而 其 余 磁 带 均 已 没有 任何 内 容 。 我 们 必须 将 T, 中 
的 一 个 顺 串 拷贝 到 另外 一 盘 磁 带 上 , 然后 结束 合并 。 

事实 上 , 我 们 给 出 的 第 一 次 分 配 是 最 优 的 。 如 果 顺 串 的 个 数 是 一 个 斐 波 那 契 数 FY, 那么 分 
配 这 些 顺 串 最 好 的 方式 是 把 它们 分 裂 成 两 个 斐 波 那 契 数 的 ,和 Fy 80. 为 了 将 顺 串 的 个 数 
补足 成 一 个 斐 波 那 契 数 就 必须 用 一 些 旺 顺 串 (dummy runs) 来 填补 磁带 。 我 们 把 如 何 将 一 组 初始 
顺 串 分 放 到 磁带 上 的 具体 做 法 留 作 练习 。 

可 以 把 上 面 的 做 法 扩充 到 k- KAJ, 此 时 需要 大 阶 斐 波 那 契 数 用 于 分 配 顺 串 , 其 中 大 阶 斐 
波 那 契 数 定义 为 Fo (N) =F (N-1) + FO (N-2) e + FP(N - k) , 辅 以 适当 的 初始 条 件 
F® (N) =0, OS N<k-2, F“(k-1) =1, 
7.12.6 替换 选择 

最 后 我 们 将 要 考虑 的 是 顺 串 的 构造 。 迄 今 我 们 已 经 用 到 的 策略 是 所 谓 的 最 简 可 能 : BEA 
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尽 可 能 多 的 记录 并 将 它们 排序 , 再 把 结果 写 到 某 个 磁带 上 。 这 看 起 来 像 是 最 佳 可 能 的 处 理 , 直 
到 实现 只 要 第 一 个 记录 被 写 到 输出 磁带 上 , 它 所 使 用 的 内 存 就 可 以 被 另外 的 记录 使 用 。 如 果 输 
入 磁带 上 的 下 一 个 记录 比 我 们 刚刚 输出 的 记录 大 ， 它 就 可 以 被 放 人 顺 串 中 。 

利用 这 种 想法 ,我们 可 以 给 出 产生 顺 串 的 一 个 算法 ,该 方法 通常 称 为 替换 选择 ( replacement 
selection) 。 开 始 , 必 个 记录 被 读 入 内 存 并 放 到 一 个 优先 队列 中 。 我 们 执行 一 次 deleteMin, 把 
最 小 ( 值 ) 的 记录 写 到 输出 磁带 上 , 再 从 输入 磁带 读 人 下 一 个 记录 。 如 果 它 比 刚刚 写 出 的 记录 
K, 可 以 把 它 添加 到 优先 队列 中 , 否则 , 不 能 把 它 放 入 当前 的 顺 串 。 由 于 优先 队列 少 一 个 元 素 ， 
因此 , 可 以 把 这 个 新 元 素 存 入 优先 队列 的 死 区 ( dead space) ,直到 顺 串 完成 构建 ,而 该 新 元 素 用 
于 下 一 个 顺 串 。 将 一 个 元 素 存 人 死 区 的 做 法 类 似 于 在 堆 排 序 中 的 做 法 。 我 们 继续 这 样 的 步骤 直 
到 优先 队列 的 大 小 为 零 , 此 时 该 顺 串 构建 完成 。 我 们 使 用 死 区 中 的 所 有 元 素 通过 建立 一 个 新 的 
优先 队列 开始 构建 一 个 新 的 顺 串 。 图 7-26 解释 我 们 一 直 在 使 用 的 这 个 小 例子 的 顺 串 构建 过 程 ， 
其 中 M =3。 死 元 素 以 星 号 标示 。 


T 堆 数组 中 的 3 个 元 素 
h[1] hf[2] 



























图 7-26， 顺 串 构建 的 例子 


在 这 个 例子 中 , 替换 选择 只 产生 3 个 顺 串 , 这 与 通过 排序 得 到 5 个 顺 串 不 同 。 正 因为 如 此 ， 
3- 路 合并 经 过 一 趟 而 非 两 趟 合并 而 结束 。 如 果 输 入 数据 是 随机 分 布 的 , 那么 可 以 证 明 蔡 换 选 择 
产生 平均 长 度 为 2M 的 顺 串 。 对 于 我 们 所 举 的 大 例子 , 预计 为 160 个 顺 串 而 不 是 320 个 顺 串 , DR 
Jt, 5- 路 合并 需要 进行 4 趟 。 在 这 种 情况 下 , 我 们 一 趟 也 没有 节省 , 不 过 在 幸运 时 是 可 以 节省 
的 , 我 们 可 能 有 125 个 或 更 少 的 顺 串 。 由 于 外 部 排序 花费 的 时 间 太 多 , 因此 节省 的 每 一 趟 都 可 
能 对 运行 时 间 产 生 显著 的 影响 。 

我 们 已 经 看 到 , 替换 选择 可 能 做 得 并 不 比 标准 算法 更 好 。 然 而 , 输入 数据 常常 从 已 排序 或 
几乎 已 排序 开始 , 此 时 替换 选择 仅仅 产生 少数 非常 长 的 顺 串 , 而 这 种 类 型 的 输入 通常 要 进行 外 
部 排序 , 这 就 使 得 蔡 换 选择 具有 特别 的 价值 。 


小 结 


排序 是 计算 中 最 古老 的 、 被 研究 得 最 完备 的 问题 之 一 。 对 于 大 部 分 一 般 的 内 部 排序 的 应 
用 ， 选 用 的 方法 不 是 插 和 排序、 和 硕 尔 排序 、 归 并 排序 就 是 快速 排序 ， 这 主要 是 由 输入 的 大 小 以 
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及 底层 环境 来 决定 的 。 插 人 排序 适用 于 非常 少量 的 输入 。 对 于 中 等 规模 的 输入 ， 和 希 尔 排序 是 个 
不 错 的 选择 。 只 要 增 量 序列 合适 ， 它 可 以 只 用 少量 代码 就 给 出 优异 的 表现 。 归 并 排序 最 坏 情况 
下 的 表现 为 0( NlogN) ， 但 是 需要 额外 空间 。 然 而 ， 它 用 到 的 比较 次 数 是 近乎 最 优 的 ， 因 为 任 
何 仅 用 元 素 比较 来 进行 排序 的 算法 都 会 对 某 些 输 入 序列 必须 用 至 少 [ log NT) | 次 比较 。 快 速 排 
序 自 己 并 不 保证 提供 这 种 最 坏 时 间 复 杂 度 ， 并 且 编 程 比较 麻烦 。 但 是 ， 它 可 以 几乎 肯定 地 做 到 
O(CNMogN)， 并 且 跟 堆 排 序 组 合 在 一 起 就 可 以 保证 最 坏 情 况 下 有 OCN log N) 。 用 基数 排序 可 以 
将 字符 串 在 线性 时 间 内 排序 ， 这 在 某 些 情况 下 是 相对 于 基于 比较 的 排序 法 而 言 更 实际 的 另 一 种 


选择 。 
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使 用 插入 排序 将 序列 3, 1,4,1,5,9,2, 6, 5 排序 。 

如 果 所 有 的 元 素 都 相等 , 那么 插入 排序 的 运行 时 间 是 多 少 ? 

设 交换 元 素 ali) Mali+k), 它们 最 初 是 反 序 的 。 证 明 被 去 掉 的 逆序 最 少 为 1 个 最 多 为 2k- 
1+. 

写 出 使 用 增 量 11, 3, 7 对 输入 数据 9, 8,7, 6, 5, 4, 3, 2, 1 运行 希 尔 排 序 得 到 的 结果 。 

a. 使 用 2- 增 量 序列 | 1, 21 的 希 尔 排 序 的 运行 时 间 是 多 少 ? 

b. 证 明 , 对 任意 的 NW, 存在 一 个 3- 增 量 序列 , 使 得 希 尔 排序 以 O(N ) 时 间 运 行 。 

c. 证 明 , 对 任意 的 N, 存在 一 个 6- 增 量 序列 , 使 得 希 尔 排序 以 0(N”) 时 间 运 行 。 


“a. 证明, 使 用 形 如 1, e, è, oy e 的 增 量 , 希 尔 排序 的 运行 时 间 为 N), EP, e 为 任 一 


整数 。 


"b. TERA, 对 于 这 些 增 量 , 平均 运行 时 间 为 OUN  ) 。 


证 明 , 若 一个 大 排序 的 文件 随后 是 九 排 序 的 , 则 它 仍 保持 是 大 排序 的 。 

证 明 , 使 用 由 Hibbard 建议 的 增 量 序列 的 希 尔 排 序 在 最 坏 情形 下 的 运行 时 间 是 Q(N2 ) 。 提 示 : 可 
以 证 明 当 所 有 的 元 素 不 是 0 就 是 1 时 希 尔 排序 这 种 特殊 情形 的 时 间 界 。 如 果 志 可 以 表 为 ,hh， ， 
s+, 册 ji 的 线性 组 合 , 则 可 置 ali] =1, 否则 置 为 0。 

确定 希 尔 排序 对 于 下 述 情况 的 运行 时 间 。 

a。 排 过 序 的 输入 数据 


"b. 反 序 排列 的 输入 数据 


下 述 两 种 对 图 7-4 所 编写 的 希 尔 排序 例 程 的 修改 影响 最 坏 情形 的 运行 时 间 吗 ? 

a. 如果 gap 是 偶数 , 则 在 第 11 行 前 从 gap 减 1。 

b. 如果 gap 是 偶数 , 则 在 第 11 行 前 往 gap 加 1。 

指出 堆 排 序 如 何 处 理 输入 数据 142, 543, 123, 65, 453, 879, 572, 434, 111, 242, 811, 102, 

对 于 已 经 有 序 的 输入 , 堆 排 序 的 运行 时 间 是 多 少 ? 

证 明 存 在 这 样 的 输入 , 它 使 得 堆 排序 中 的 每 一 个 percolateDown 一 直行 进 到 树叶 ( 提示: 向 后 
进行 ) 。 

重 写 堆 排序 , 使 得 只 对 从 low 到 high 范围 的 项 进行 排序 , 其 中 low 和 high 作为 附加 参数 被 
传递 。 

用 归并 排序 将 3, 1, 4, 1, 5, 9, 2, 6 排序 。 

不 使 用 递归 如 何 实现 归并 排序 ? 

确定 下 列 情况 下 归并 排序 的 运行 时 间 

a. 已 排序 的 输入 

b. 反 序 排列 的 输入 

c. 随机 的 输入 

在 归并 排序 的 分 析 中 是 不 考虑 常数 的 。 证 明 , 归并 排序 在 最 坏 情 形 下 用 于 比较 的 次 数 为 W[ log N 1- 
given c IP 

用 三 数 中 值 分 割 以 及 截止 为 3 的 快速 排序 将 3, 1, 4, 1, 5, 9, 2, 6, 5,3, 5 排序 。 

使 用 本 章 中 的 快速 排序 实现 方法 , 确定 下 列 输入 数据 的 快速 排序 运行 时 间 
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7.26 


7.28 


7.30 
d 








a 已 排序 的 输入 

b. 反 序 排列 的 输入 

c. 随机 的 输入 

当 枢纽 元 被 选 作 下 列 元 素 时 重 做 练习 7. 20 
a 第 一 个 元 素 

b. 前 两 个 不 同 元 素 中 的 最 大 者 

. 一 个 随机 元 素 


“d. 集合 中 所 有 元 素 的 平均 值 


对 于 本 章 中 快速 排序 的 实现 方法 , 当 所 有 的 关键 字 都 相等 时 它 的 运行 时 间 是 多 少 ? 

. 假设 我 们 改变 分 割 策略 使 得 当 找 到 一 个 与 枢纽 元 有 相同 关键 字 的 元 素 时 i 和 j 都 不 停止 。 为 
了 保证 快速 排序 正常 工作 ， 需 要 对 程序 做 哪些 修改 ? 当 所 有 的 关键 字 都 相等 时 ,运行 时 间 是 
多 少 ? 

eoe 假设 我 们 改变 分 割 策略 ， 使 得 在 一 个 与 枢纽 元 相同 的 关键 字 处 i 停止 , 但 是 7 在 类 似 的 情形 下 

却 不 停止 。 为 了 保证 快速 排序 正常 工作 需要 对 程序 做 哪些 修改 ? 当 所 有 的 关键 字 都 相等 时 ， 
快速 排序 的 运行 时 间 是 多 少 ? 

设 选择 数组 中 间 位 置 上 的 关键 字 作 为 枢纽 元 。 这 是 否 使 得 快速 排序 将 不 太 可 能 需要 平方 时 间 ? 

构造 20 个 元 素 的 一 个 排列 使 得 对 于 三 数 中 值 分 割 且 截 止 为 3 的 快速 排序 方法 该 排列 尽 可 能 

地 差 。 

课文 中 的 快速 排序 使 用 两 个 递归 调用 。 删 除 一 个 调用 如 下 : 

a. 重 写 程序 使 得 第 2 个 递归 调用 无 条 件 地 成 为 快速 排序 的 最 后 一 行 。 通 过 颠倒 if felse 并 在 

对 insertionSort 调用 之 后 返回 来 做 到 这 一 点 。 

b. 通过 写 一 个 while 循环 并 改变 lett 来 除去 尾 递归 。 

继续 练习 7. 25 , 在 问题 (a) 之 后 ， 

a. 执行 一 次 测试 , 使 得 较 小 的 子 数组 由 第 一 个 递归 调用 处 理 , 而 较 大 的 子 数组 由 第 二 个 递归 调 

用 处 理 。 

b. 通过 写 一 个 while 循环 并 在 必要 时 交换 left 或 right 以 除去 尾 递归 。 

c. 证 明 递 归 调 用 的 次 数 在 最 坏 情形 下 是 对 数 级 的 量 。 

设 递归 快速 排序 从 驱动 程序 接收 int 型 参数 depth, 它 的 初始 值 近似 为 2log No 

a. 修改 递归 快速 排序 使 其 在 递归 之 层 达 到 depth 时 对 当前 的 子 数组 调用 heapsort (提示 : 当 
进行 递归 调用 时 使 depth 减 1; 当 它 为 0 时 切换 到 heapsort ) 。 

. 证 明 该 算法 最 坏 情形 运行 时 间 为 O(N log N) 。 

. 通过 实验 确定 对 heapsort 调用 的 频率 。 

. 连同 使 用 练习 7. 25 中 的 删除 尾 递归 一 起 实现 本 题 的 方法 。 

. 解释 为 什么 练习 7. 26 中 的 方法 不 再 是 必需 的 。 

当 实 现 快速 排序 时 ,如 果 数 组 包含 许多 重复 元 , 那么 可 能 更 好 的 方法 是 执行 3 路 划分 (划分 成 小 

于 、 等 于 以 及 大 于 枢纽 元 的 三 部 分 元 素 ) 以 进行 更 小 的 递归 调用 。 设 采用 有 如 compareTo 方法 


sr Pp PP 


go c 


e 


提供 的 3 路 比较 。 


a. 给 出 一 个 算法 , 该 算法 只 使 用 NW-1 次 3 路 比较 而 将 一 个 IN 元 素 子 数组 实施 3 路 适当 的 划分 。 
如 果 有 4 项 等 于 枢纽 元 , 那么 可 以 使 用 d 次 附加 的 Comparable 交换 , 多 于 2 路 分 割 算法 ( 提 
AN: BAA i 和 j 彼此 相向 移动 , 保持 5 组 元 素 , 如 下 所 示 ): 

EQUAL SMALL UNKNOWN LARGE EQUAL 
i j 

b. 证 明 : 使 用 上 面 的 算法 将 只 含有 d 个 不 同 值 的 N 元 素数 组 排序 花费 0(dN) 时 间 。 

编写 一 个 程序 实现 选择 算法 。 


ROE FTE KR TON) = (17) | > TG) | +eN, 7(0) =0, 


如 果 一 切 具 有 相等 关键 字 的 元 素 都 保持 它们 在 输入 时 呈现 的 顺序 , 那么 这 种 排序 算法 就 叫 作 稳 
Z (stable) 的 。 本 章 中 的 排序 算法 哪些 是 稳定 的 ? 哪些 不 是 ? 为 什么 ? 
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设 给 定 NN 个 已 排序 的 元 素 , AERA FON) THEOL TCR. WR FON) J& P AL, 那么 如 何 
将 全 部 数据 排序 ? 

a. f(N) =0(1) 

b. F(N) = O(log N) 

e. A(N) =0(/N) 


d. 对 于 全 部 数据 , SON) 多 大 仍然 能 够 以 OCN) 时 间 排 序 ? 


证 明 : 在 放 个 元 素 已 排序 的 表 中 找 出 一 个 元 素 的 任何 算法 都 需要 Q(log N) 次 比较 。 
利用 Stirling 公式 NT. 二 (N/e)”YV2mN 给 出 log INT) BER FT o 


“a. 两 个 排 过 序 的 入 个 元 素 的 数组 有 多 少 种 合并 的 方法 ? 
"b. 对 a 的 答案 取 对 数 ， 给 出 合并 两 个 Y 个 元 素 的 排 过 序 的 表 所 需要 的 比较 次 数 的 非 平凡 下 界 。 


证 明 将 两 个 有 序 的 IN 个 元 素 的 数组 归并 至 少 需要 2N -1 次 比较 。 你 必须 证 明 如 果 归 并 表 中 的 两 

个 连续 排放 的 元 素 是 从 不 同 的 表 里 来 的 ， 则 它们 必须 要 经 过 比较 。 

考虑 下 列 将 6 个 数 排序 的 算法 : 

e 使 用 算法 A 将 前 3 个 数 排序 。 

e 使 用 算法 B 将 后 3 个 数 排序 。 

e 使 用 算法 C 将 两 个 已 排序 的 数组 合并 。 

证 明 这 个 算法 是 次 优 的 , 与 算法 A4、B8、C 的 选择 无 关 。 

编写 程序 读 和 NN 个 平面 上 的 点 ,输出 任意 一 组 4 个 及 以 上 共 线 的 点 ( 即 在 同一 条 直线 上 的 点 )。 

显然 ， 暴 力 算法 需要 ON 的 时 间 。 然 而 ， 有 一 种 更 好 的 算法 可 以 利用 排序 在 O(N? log N) 时 间 

内 运行 。 

证 明 N 个 元 素 中 两 个 最 小 的 元 素 可 以 在 +f log N 1-2 次 比较 中 找到 。 

下 列 分 而 治之 算法 被 提出 ， 用 以 同时 找 最 大 和 最 小 值 : 如 果 只 有 一 个 元 素 ， 它 就 既是 最 大 也 是 

最 小 。 如 果 有 两 个 元 素 , -那么 经 过 一 次 比较 你 就 能 找到 最 大 和 最 小 。 否 则 ， 将 输入 分 成 两 半 ， 

要 分 得 尽 可 能 均匀 ( 如 果 NN 是 奇数 ， 两 半 之 一 会 比 男 外 一 半 多 一 个 元 素 )。 递 归 地 找到 每 一 半 的 

最 大 和 最 小 ， 然 后 再 加 两 次 比较 就 得 到 整个 问题 的 最 大 和 最 小 。 

a. 设 和 NN 是 2 的 军 。 这 个 算法 确切 地 用 了 多 少 次 比较 ? 

b. 设 NN 形 如 3 .2*。 这 个 算法 确切 地 用 了 多 少 次 比较 ? 

e. 修改 算法 如 下 : 4 N 是 偶数 但 不 能 被 4 整除 时 ， 将 输入 分 成 规模 为 W2 -1 和 N2 +1 的 两 部 
分 。 这 个 算法 确切 地 用 了 多 少 次 比较 ? 

设 我 们 想 将 N 个 元 素 划 分 为 6 个 等 规模 为 NG 的 组 ， 使 得 最 小 的 NAG 个 元 素 在 组 1， 次 小 的 

MG 个 元 素 在 组 2， 以 此 类 推 。 这 些 组 不 需要 是 有 序 的 。 简 单 起 见 ， 你 可 以 假设 Y 和 CC 都 是 2 

HAE. 

a. 给 出 一 个 O(N log G6) 的 算法 来 解决 此 问题 。 

b. 证 明 用 基于 比较 的 算法 解决 此 问题 的 下 界 是 Q(N log C) 。 

给 出 二 个 线性 时 间 算 法 将 NN 个 分 数 排序 , 它们 的 分 子 和 分 母 都 是 在 1 和 WN 之 间 的 整数 。 

设 数 组 4 和 B 都 是 已 排序 的 并 且 均 含有 放 个 元 素 。 给 出 一 个 O(log N) 算 法 找 出 4UB 的 中 位 数 。 

设 有 NN 个 元 素 的 数组 只 包含 两 个 不 同 的 关键 字 true 和 false。 给 出 一 个 O(CNW) 算 法 重新 排列 

这 些 元 素 使 得 所 有 false 的 元 素 都 排 在 true 的 元 素 的 前 面 。 只 能 使 用 常数 附加 空间 。 

AN 个 元 素 的 数组 包含 三 个 不 同 的 关键 字 true, false 和 maybe。 给 出 一 个 O(W) 算 法 重新 

排列 这 些 元 素 使 得 所 有 false 的 元 素 都 排 在 maybe 元 素 的 前 面 , 而 maybe 元 素 在 true 元 素 

的 前 面 。 只 能 使 用 常数 附加 空间 。 

a. 证明 , 任何 基于 比较 的 算法 将 4 个 元 素 排 序 均 需 5 次 比较 。 

b. 给 出 一 种 算法 用 5 次 比较 将 4 个 元 素 排序 。 

a. 证 明 使 用 任何 基于 比较 的 算法 将 5 个 元 素 排序 都 需要 7 次 比较 。 


"b. 给 出 一 个 算法 用 7 次 比较 将 5 个 元 素 排 序 。 


写 出 一 个 高 效 的 希 尔 排 序 算 法 并 比较 当 使 用 下 列 增 量 序列 时 的 性 能 : 
a. 和希 尔 的 原始 序列 
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b. Hibbard 的 增 量 
c. Knuth 的 增 量 ， hy (3 +1) 


d. Gonnet 的 增 量 : h, -5l Hh, = || ah, =2 W] h, =1) 


e. Sedgewick 的 增 量 。 

实现 优化 的 快速 排序 算法 并 用 下 列 组 合 进行 实验 : 

a. WAT: 第 一 个 元 素 , 中 间 的 元 素 , 随机 的 元 素 , 三 数 中 值 , 五 数 中 值 。 

b. 截止 值 从 0 到 20。 

编写 一 个 例 程 读 人 两 个 用 字母 表示 的 文件 并 将 它们 合并 到 一 起 , 形成 第 三 个 也 是 用 字母 表示 的 

文件 。 

设 我 们 实现 三 数 中 值 例 程 如 下 : dE a[left], a[ center] 和 a[right] 的 中 值 ,并 将 它 与 

a[ right ] 交 换 。 以 通常 的 分 割 方法 进行 , 开始 时 i 在 left AH j E right -1 处 (而 不 是 

left +1 fll right -2), 

a 设 输入 为 2, 3, 4, +, N-1, N, 1。 对 于 该 输入 , 这 种 快速 排序 算法 的 运行 时 间 是 多 少 ? 

b. 设 输入 数据 旦 反 序 排列 , 对 于 这 样 的 输入 , 本题 的 快速 排序 算法 的 运行 时 间 又 是 多 少 ? 

证 明 , 任何 基于 比较 的 排序 算法 平均 都 需要 QCN log N) 次 比较 。 

给 定 一 个 数组 , 该 数组 包含 N 个 元 素 。 我 们 想 要 确定 是 否 存 在 两 个 数 它们 的 和 等 于 给 定 的 数 K。 例 

如 , 如 果 输 入 是 8, 4, 1, 6 而 天 是 410, 则 答案 为 yes(4 和 6)。 一 个 数 可 以 被 使 用 两 次 。 解 答 下 列 各 问 : 

a. 给 出 求解 该 问题 的 ON’) AIK. 

b. 给 出 求解 该 问题 的 O(N log N) 算 法 (提示 : 首先 将 各 项 排序 。 然 后 , 可 以 以 线性 时 间 解 决 该 
问题 ) 。 

c. 将 两 种 方案 编码 并 比较 算法 的 运行 时 间 。 

对 于 4 个 数 重复 练习 7.53。 尝 试 设计 一 个 O(N log N) 算 法 (提示 : 计算 两 个 元 素 所 有 可 能 的 和 。 

把 这 些 可 能 的 和 排序 。 然 后 按 练习 7. 53 来 处 理 ) 。 

对 于 3 个 数 重复 练习 7. 33。 尝试 设计 一 个 O(N’) WIE. 

考虑 下 面 percolateDown 的 做 法 。 在 节点 不 处 有 一 个 空 灾 (hole) 。 普 通 的 例 程 是 比较 工 的 儿 

子 然 后 把 比 我 们 企图 要 放置 的 元 素 大 的 儿子 上 移 到 XX 处 (在 (max) 堆 的 情形 下 )，, 由 此 将 空 穴 下 

HE; 当 把 新 元 素 放 到 空 穴 中 稳妥 时 我 们 终止 算法 。 另 一 种 做 法 是 将 元 素 上 移 且 空 穴 尽 可 能 地 下 

移 , 不 用 测试 新 单元 是 否 能 够 被 插入 。 这 将 使 得 新 单元 被 放置 到 一 片 树叶 上 并 可 能 破坏 堆 序 性 

质 ; 为 了 修复 堆 序 , 以 通常 的 方式 将 新 单元 上 滤 。 写 出 包含 该 想法 的 例 程 , 并 与 标准 的 堆 排序 实 

现 方法 的 运行 时 间 进 行 比较 。 

提出 一 种 算法 只 用 两 盘 磁 带 对 一 个 大 型 文件 进行 排序 。 

a. 通过 buildHeap 最 多 使 用 2N 次 比较 的 事实 证 明 堆 个 数 的 下 界 N 27^, 

b. 利用 Stirling 公式 展开 该 界 。 

M 是 一 个 NN MERE, 其 每 行 的 元 都 是 递增 的 ， 每 列 的 元 也 是 递增 的 (从 上 向 下 读 )。 考 虑 用 3 路 

比较 来 判断 x 是 否 在 M 中 这 个 问题 ( 即 x 和 MM[ 门 [用 做 一 次 比较 ,就 告诉 你 x 是 小 于 、 等 于 或 大 

T MUIUD. 

a 给 出 至 多 使 用 2N -1 次 比较 的 算法 。 

b. 证 明 任何 算法 都 必须 至 少 用 2N -1 次 比较 。 

一 只 盒子 里 藏 有 奖品 ; 奖品 的 价值 是 一 个 1 ~NN 之 间 的 正 整 数 ，N 是 给 定 的 。 要 赢得 奖品 ， 你 得 

猿 对 它 的 价值 。 你 的 目标 是 用 尽 可 能 少 的 次 数 猜 到 ， 然 而 ， 在 那些 猜测 中 ， 你 最 多 只 能 有 g 次 

猜 高 。g 的 值 会 在 游戏 开始 时 给 出 ， 如 果 猜 高 的 次 数 超 过 了 g， 你 就 输 了 。 例 如 ， 如 果 g =0， 

你 可 以 在 次 以 内 赢 ， 只 要 简单 地 猜 序 列 1，2，3，…。 

a We=[log N 1。 什 么 样 的 策略 可 以 使 猜测 次 数 最 少 ? 

b. 设 g=1。 证 明 你 总 是 可 以 在 O(N”) 次 以 内 的 猜测 中 胜出 。 

c. 设 g=1。 证 明 任何 能 赢 到 奖品 的 算法 必须 用 到 ON?) 


d. 给 出 一 种 算法 ， 能 对 任意 常数 g 达到 下 界 。 
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在 这 一 章 , 我 们 描述 解决 等 价 问题 的 一 种 有 效 数据 结构 。 这 种 数据 结构 实现 起 来 简单 , 每 
个 例 程 只 需要 几 行 代码 , 而 且 可 以 使 用 一 个 简单 的 数组 。 它 的 实现 也 非常 地 快 , 每 种 操作 只 需 
要 常数 平均 时 间 。 从 理论 上 看 , 这 种 数据 结构 还 是 非常 有 趣 的 , 因为 它 的 分 析 极 其 困难 ; 最 坏 
情形 的 函数 形式 不 同 于 我 们 已 经 见 过 的 任何 形式 。 对 于 这 种 不 相交 集 数据 结构 , 我 们 将 

e 讨论 如 何 能 够 以 最 少 的 编程 代价 实现 。 

e 使 用 两 个 简单 的 观察 结果 极 大 地 增加 它 的 速度 。 

© 分 析 一 种 快速 的 实现 方法 的 运行 时 间 。 

e 介绍 一 个 简单 的 应 用 。 


8.1 等 价 关 系 


若 对 于 每 一 对 元 素 (oc, b), a, be S, aRb 或 者 为 true 或 者 为 false, 则 称 在 集合 S 上 定义 关 
系 (relation)R。 如 果 aRb 是 true, Mika 5j b 有 关系 。 

等 价 关 系 (equivalence relation) 是 满足 下 列 三 个 性 质 的 关系 R: 

1.( 自 反 性 ) 对 于 所 有 的 ae5S, aRa。 

2. (对 称 性 )aRb 当 且 仅 当 bRa。 

3. (传递 性 ) 若 aRb H. bRe 则 aRc。 

我 们 将 考虑 几 个 例子 。 

关系 入 不 是 等 价 关 系 。 虽 然 它 是 自 反 的 , Masa; 可 传递 的 , Ble a<b M bsc asc, 
但 它 不 是 对 称 的 , 因为 从 as b 并 不 能 得 出 b<a。 

电气 连通 性 ( electrical connectivity) 是 一 个 等 价 关 系 , 其 中 所 有 的 连接 都 是 通过 金属 导线 完 
成 的 。 该 关系 显然 是 自 反 的 , 因为 任何 元 件 都 是 自身 相连 的 。 如 果 a 电气 连接 到 6b, 那么 5 必然 
也 电气 连接 到 a。 最 后 , 如 果 a 连接 到 4b, 而 又 连接 到 , 那么 a 连接 到 c。 因 此 , 电气 连接 是 
一 个 等 价 关 系 。 

如 果 两 个 城市 位 于 同一 个 国家 , 那么 定义 它们 是 有 关系 的 。 容 易 验 证 这 是 一 个 等 价 关 系 。 
如 果 能 够 通过 公路 从 城镇 a 旅行 到 4, 则 设 与 9 有 关系。 如 果 所 有 的 道路 都 是 双向 行驶 的 , 那 
么 这 种 关系 也 是 一 个 等 价 关 系 。 


8.2 动态 等 价 性 问题 


给 定 一 个 等 价 关 系 ~, 一 个 自然 的 问题 是 对 任意 的 a Ab, MEET a ~b。 如 果 将 等 价 关 
系 存储 为 布尔 变量 的 一 个 二 维 数 组 , 那么 当然 这 个 工作 可 以 以 常数 时 间 完 成 。 问 题 在 于 , 关系 
通常 不 是 明显 而 是 相当 隐秘 地 定义 的 。 

作为 一 个 例子 , 设 在 5 个 元 素 的 集合 1a , a, a, a,, as| 上 定义 一 个 等 价 关 系 。 此 时 存在 
25 对 元 素 , 它们 的 每 一 对 或 者 有 关系 或 者 没有 关系 。 然 而 , 信息 ai ~az, Q3 ~az, 0, 70,, Gy ~ 
意味 着 每 一 对 元 素 都 是 有 关系 的 。 我 们 希望 能 够 迅速 推断 出 这 些 关 系 。 

一 个 元 素 a € S 的 等 价 类 (equivalence class) 是 5 的 一 个 子 集 , 它 包含 所 有 与 a。 有 (等 价 ) 关 系 
WICK. TER, 等 价 类 形成 对 5 的 一 个 划分 : S 的 每 一 个 成 员 恰好 出 现在 一 个 等 价 类 中 。 为 确定 是 
否 a ~b, 我 们 只 需 验 证 a 和 “是 否 都 在 同一 个 等 价 类 中 。 这 给 我 们 提供 了 解决 等 价 问题 的 方法 。 

输入 数据 最 初 是 N 个 集合 的 类 (collection ) , 每 个 集合 含有 一 个 元 素 。 初 始 的 描述 是 所 有 的 
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关系 均 为 false( 自 反 的 关系 除外 ) 。 每 个 集合 都 有 一 个 不 同 的 元 素 , 从 而 Sons, =O; 这 使 得 
这 些 集合 不 相交 (disjoint ) 。 

此 时 , 有 两 种 操作 允许 进行 。 第 一 种 操作 是 find, 它 返回 包含 给 定 元 素 的 集合 ( 即 等 价 
类 ) 的 名 字 。 第 二 种 操作 是 添加 关系 。 如 果 我 们 想 要 添加 关系 a ~b, 那么 我 们 首先 要 看 a RID 
是 否 已 经 有 关系 。 这 可 以 通过 对 a I b AT find 并 检验 它们 是 否 在 同一 个 等 价 类 中 来 完成 。 
如 果 它 们 不 在 同一 类 中 , 那么 我 们 使 用 求 并 操作 union, 这 种 操作 把 含有 a Alb 的 两 个 等 价 类 
合并 成 一 个 新 的 等 价 类 。 从 集合 的 观点 来 看 ，U 的 结果 是 建立 一 个 新 集合 S =S US, 去 掉 原来 
两 个 集合 而 保持 所 有 的 集合 的 不 相交 性 。 由 于 这 个 原因 , 常常 把 做 这 项 工作 的 算法 叫 作 不 相交 
集合 的 union/find 算法 。 

该 算法 是 动态 (dynamic) 的 ,因为 在 算法 执行 的 过 程 中 , 集合 可 以 通过 union 操作 而 发 生 
改变 。 这 个 算法 还 必然 是 联机 (on-line ) 操 作 : 当 find 执行 时 , 它 必须 给 出 答案 算法 才能 继续 进 
行 。 另 一 种 可 能 是 脱 机 (off-line) 算 法 , 该 算法 需要 观察 全 部 的 union 和 find 序列。 它 对 每 个 
find 给 出 的 答案 必须 和 所 有 被 执行 到 该 find 的 union 一 致 , 但 是 该 算法 在 看 到 所 有 这 些 问 
题 以 后 才能 够 给 出 它 的 所 有 的 答案 。 这 种 差别 类 似 于 参加 一 次 笔试 ( 它 一 般 是 脱 机 的 一 一 你 只 
能 在 规定 的 时 间 用 完 之 前 给 出 答卷 ) 和 一 次 口试 ( 它 是 联机 的 , 因为 你 必须 回答 当前 的 问题 ， 然 
后 才能 继续 下 一 个 问题 ) 。 

注意 , 我 们 不 进行 任何 比较 元 素 相关 的 值 的 操作 , 而 是 只 需要 知道 它们 的 位 置 。 由 于 这 个 
原因 , 我 们 假设 所 有 的 元 素 均 已 从 0 A N — 1 顺序 编号 并 且 编 号 方法 容易 由 某 个 散 列 方案 确定 。 
FE, 开始 时 我 们 有 S, = lil, i20 BIN-1,° 

我 们 的 第 二 个 观察 结果 是 , 由 find 返回 的 集合 的 名 字 实际 上 是 相当 任意 的 。 真 正 重 要 的 
关键 在 于 : find(a) = - find(b) Jy true 当 且 仅 当 a 和 PP 在 同一 个 集合 中 。 

这 些 操作 在 许多 图 论 问 题 中 是 重要 的 , 在 一 些 处 理 等 价 (或 类 型 ) 声 明 的 编译 程序 中 也 很 重 
要 。 我 们 将 在 后 面 讨论 一 个 应 用 。 

解决 动态 等 价 问题 的 方案 有 两 种 。 一 种 方案 保证 指令 find 能 够 以 常数 最 坏 情 形 运 行 时 间 
执行 ,而 另 一 种 方案 则 保证 指令 union 能 够 以 常数 最 坏 情形 运行 时 间 执 行 。 业 已 证 明 二 者 不 
能 同时 以 常数 最 坏 情 形 运 行 时 间 执 行 。 

我 们 将 简要 讨论 第 一 种 处 理 方法 。 为 使 fina 操作 快速 , 可 以 在 一 个 数组 中 保存 每 个 元 素 
的 等 价 类 的 名 字 。 此 时 ,find 就 是 简单 的 0(1) 查 找 。 设 我 们 想 要 执行 union(a, b), 并 设 a 
在 等 价 类 i 中 而 b 在 等 价 类 7 中 。 此 时 我 们 扫描 该 数组 , 将 所 有 的 i 都 改变 成 j。 不 过 , 这 次 扫描 
要 花费 @(N) 时 间 。 于 是 , 连续 N-1 次 union 操作 (这 是 最 大 值 , 因为 此 时 每 个 元 素 都 在 同一 
个 集合 中 ) 就 要 花费 ON ) 的 时 间 。 如 果 存 在 Q(N ) 量 级 的 find 操作 , 那么 这 个 性 能 很 好 ， 
因为 在 整个 算法 进行 过 程 中 每 个 union 或 find 操作 的 运行 时 间 总 共 也 就 是 0(1)。 如 果 
find 操作 没有 那么 多 , 那么 这 个 界 是 不 可 接受 的 。 

一 种 想法 是 将 所 有 在 同一 个 等 价 类 中 的 元 素 放 到 一 个 链表 中 。 这 在 更 新 的 时 候 会 节省 时 
E, 因为 我 们 不 必 搜 索 整 个 数组 。 但 是 由 于 在 算法 过 程 中 仍然 有 可 能 执行 OON ) 量 级 的 等 价 类 
更 新 , 因此 它 本 身 并 不 能 单独 减少 渐进 运行 时 间 。 

如 果 我 们 还 要 跟踪 每 个 等 价 类 的 大 小 , 并 在 执行 union 时 将 较 小 的 等 价 类 的 名 字 改 成 较 
大 的 等 价 类 的 名 字 , 那么 对 于 NN -1 次 合并 的 总 的 时 间 开 销 为 OCN log N)。 其 原因 在 于 , 每 个 
元 素 可 能 让 它 的 等 价 类 最 多 改变 log N 次 , 因为 每 次 它 的 等 价 类 改变 时 它 的 新 的 等 价 类 至 少 是 
它 的 原来 等 价 类 的 两 倍 大 。 使 用 这 种 方法 , 任意 顺序 的 M 次 find MAB) N-1 次 的 union 最 
多 花费 0(M+N log N) 时 间 。 

在 本 章 的 其 余部 分 , 我 们 将 考查 union/find 问题 的 一 种 解法 , 其 中 union 操作 容易 但 find 








日 ”这 反映 数组 下 标 从 0 开始 的 事实 。 
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操作 要 难 一 些 。 即 使 如 此 , 任意 顺序 的 最 多 政 次 find 和 直到 N -1 次 union 的 运行 时 间 将 只 
比 0(M+N) 多 一 点 。 
8.3 基本 数据 结构 


记 住 , 我 们 的 问题 不 要 求 find 操作 返回 任何 特定 的 名 字 , 而 只 是 要 求 当 且 仅 当 两 个 元 素 
属于 相同 的 集合 时 作用 在 这 两 个 元 素 上 的 £ina 返回 相同 的 名 字 。 一 种 想法 是 可 以 使 用 树 来 表 
示 每 一 个 集合 , 因为 树 上 的 每 一 个 元 素 都 有 相同 的 根 。 这 样 , 该 根 就 可 以 用 来 命名 所 在 的 集合 。 
我 们 将 用 树 表示 每 一 个 集合 。 (我 们 知道 , 树 的 集合 叫 作 森林 ( forest) 。) 开始 时 每 个 集合 含有 一 
个 元 素 。 我 们 将 要 使 用 的 这 些 树 不 一 定 必须 是 二 叉 树 , 但 是 表示 它们 要 容易 ,因为 我 们 需要 的 
唯一 信息 就 是 一 个 父 链 ( parent link) 。 集 合 的 名 字 由 根 处 的 节点 给 出 。- 由 于 只 需要 父 节 点 的 名 
F, 因此 我 们 可 以 假设 这 棵 树 被 非 显 式 地 存储 在 一 个 数组 中 : 数组 的 每 个 成 员 s[ 1] 表示 元 素 i 
WRK. WRI 是 根 , 那么 s[i] = -1。 在 图 8-1 的 森林 中 , 对 于 0<i<8, s[i] = -1。 正 如 
在 二 又 堆 中 那样 , 我 们 也 将 显 式 地 画 出 这 些 树 ,注意 , 此 时 正在 使 用 的 是 一 个 数组 。 图 8-1 表达 
了 这 种 显 式 的 表示 方法 , 为 方便 起 见 , 我 们 将 把 根 的 父 链 垂直 画 出 。 
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图 8-1 8 个 元 素 , 初始 时 在 不 同 的 集合 上 


为 了 执行 两 个 集合 的 union 运算 , 我 们 通过 使 一 棵 树 的 根 的 父 链 链接 到 另 一 棵 树 的 根 节 
点 来 合并 两 棵 树 。 显 然 , 这 种 操作 花费 常数 时 间 。 图 8-2、 图 8-3 和 图 8-4 分 别 表示 在 
union(4, 5) .union(6, 7) 和 union(4, 6) 每 一 个 操作 之 后 的 森林 ， 其 中 , 我 们 采纳 了 在 
union(x,Y) 后 新 的 根 是 x 的 约定 。 最 后 的 森林 的 非 显 式 表 示 见 图 8-5。 
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8-2 在 union(4, 5) 之 后 
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8-3 在 union(6,7) 之 后 
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图 8-4 在 union(4,6) 之 后 
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图 8-5 上 面 的 树 的 非 显 式 表示 


对 元 素 x 的 一 次 find(x) 操 作 通 过 返回 包含 x 的 树 的 根 而 完成 。 执 行 这 次 操作 花费 的 时 
间 与 代表 x 的 节点 的 深度 成 正比 ,当然 这 要 假设 我 们 以 常数 时 间 找 到 表示 x 的 节点 。 使 用 上 面 
的 方法 , 有 可 能 建立 一 棵 深度 为 N-1 的 树 , 因此 一 次 find 的 最 坏 情 形 运行 时 间 是 O(N) 。 一 
般 情 况 , 运行 时 间 是 对 连续 混合 使 用 M 个 指令 来 计算 的 。 在 这 种 情况 下 ,M 次 连续 操作 在 最 坏 
情形 下 可 能 花费 0( MN) 时 间 。 

图 8-6 到 图 8-9 中 的 程序 表示 基本 算法 的 实现 , 假设 差错 检验 已 经 执行 。 在 我 们 的 例 程 中 ， 
这 些 union 是 在 一 些 树 的 根 上 进行 的 。 有 时 候 运算 是 通过 传递 任意 两 个 元 素 进行 的 ,并 使 得 
union 执行 两 次 find 以 确定 它们 的 根 。 


public class DisjSets 
{ 
public DisjSets( int numElements ) 
{ /* Figure 8.7 */ } 
public void union( int rootl, int root2 ) 
{ /* Figures 8.8 and 8.14 «/ } 


public int find( int x ) 
{ /* Figures 8.9 and 8.16 */ } 


private int [ ] s; 





图 8-6 不 相交 集合 的 类 架构 


* Construct the disjoint sets object. 
* @param numElements the initial number of disjoint sets. 
*/ 
public DisjSets( int numElements ) 
{ 
s = new int [ numElements ]; 
for( int i = 0; i < s.length; i++ ) 
sli] = -1; 
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图 8-7 不 相交 集合 的 初始 化 例 程 
/** 
* Union two disjoint sets. 
* For simplicity, we assume rootl and root2 are distinct 
* and represent set names. 


* @param rootl the root of set 1. 
* @param root2 the root of set 2. 


#/ 
public void union( int rootl, int root2 ) 
{ 

s[ root2 ] = rootl; 


} 
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图 8-8 union( 不 是 最 好 的 方法 ) 
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/** 
* Perform a find. 
* Error checks omitted again for simplicity. 
* @param x the element being searched for. 
* (return the set containing x. 
*/ 
public int find( int x ) 


if( sfx] <0) 
return x; 
else 
return find( s[ x ] ); - 
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图 8-9 一 个 简单 不 相交 集合 的 find 算法 
平均 情形 分 析 是 相当 困难 的 。 最 起 码 的 问题 是 答案 依赖 于 如 何 定义 (对 union 操作 而 言 ) 
平均 。 例 如 , 在 图 8-4 的 森林 中 , 我 们 可 以 说 , 由 于 有 5 棵 树 , 因此 下 一 个 union 就 存在 5 - 
4 =20 个 等 可 能 的 结果 (因为 任意 两 棵 不 同 的 树 都 可 能 被 union )。 当 然 , 这 个 模型 的 含义 在 
T. 只 存在 二 的 机 会 使 得 下 一 次 union 涉及 大 树 。 另 一 种 模型 可 能 会 认为 在 不 同 的 树 上 任意 
两 个 元 素 间 的 所 有 union 都 是 等 可 能 的 , 因此 大 树 比 小 树 更 有 可 能 在 下 一 次 union 中 涉及 。 
在 上 面 的 例子 中 ， 有 1 的 机 会 大 树 在 下 一 次 union 中 会 被 涉及 , 因为 (忽略 对 称 性 ) 存 在 6 种 方 


法 合并 10, 1, 2, 3} 中 的 两 个 元 素 以 及 16 种 方法 将 |4, 5, 6, 7| 中 的 一 个 元 素 与 10, 1, 2, 3| 中 
的 一 个 元 素 合并 。 还 存在 更 多 的 模型 ,而 在 何者 为 最 好 的 问题 上 没有 一 般 的 一 致 见解 。 平 均 运 
行 时 间 依赖 于 模型 ; 对 于 三 种 不 同 的 模型 , WEROM), OCM log N) 以 及 @(WN) 实际 上 已 经 
证 明 , 不 过 , 最 后 的 那个 界 更 现实 些 。 

对 一 系列 操作 的 二 次 (quadratic) 运 行 时 间 一 般 是 不 可 接受 的 。 幸 运 的 是 , 有 几 种 方法 容易 
保证 这 样 的 运行 时 间 不 会 出 现 。 


8.4 灵巧 求 并 算法 


上 面 的 union 的 执行 是 相当 任意 的 , 它 通过 使 第 二 棵 树 成 为 第 一 棵 树 的 子 树 而 完成 合并 。 
对 其 进行 简单 改进 是 借助 任意 的 方法 打破 现 有 的 随意 性 , 使 得 总 让 较 小 的 树 成 为 较 大 的 树 的 子 
树 ; 我 们 把 这 种 方法 叫 作 按 大 小 求 并 (union by size)。 前 面 例子 中 三 次 union 的 对 象 大 小 都 是 
一 样 的 , 因此 我 们 可 以 认为 它们 都 是 按照 大 小 执行 的 。 假 如 下 一 次 运算 是 union(3, 4), 那么 
结果 将 形成 图 8-10 中 的 森林 。 倘 若 没有 对 大 小 进行 探测 而 直接 union, 那么 结果 将 会 形成 更 
URBS C 见 图 8-11 ) 。 
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图 8-10 按 大 小 求 并 的 结果 
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图 8-11 进行 一 次 任意 的 union 的 结果 


我 们 可 以 证 明 , 如 果 这 些 union 都 是 按照 大 小 进行 的 , 那么 任何 节点 的 深度 均 不 会 超过 
log ,为 此 , 首先 注意 节点 初始 处 于 深度 0 的 位 置 。 当 它 的 深度 随 着 一 次 union 的 结果 而 增加 
的 时 候 , 该 节点 则 被 置 于 至 少 是 它 以 前 所 在 树 两 倍 大 的 一 棵 树 上 。 因 此 , 它 的 深度 最 多 可 以 增 
加 log N 次 。( 我 们 在 8.2 节 末 尾 的 快速 查找 算法 中 用 过 这 个 论断 。) 这 意味 着 ,finad 操作 的 运行 
时 间 是 O(log N), 而 连续 M 次 操作 则 花费 OCM log N)。 图 8-12 中 的 树 指出 在 16 次 union 后 
有 可 能 得 到 这 种 最 坏 的 树 , 而 且 如 果 所 有 的 union 都 对 相等 大 小 的 树 进行 , 那么 这 样 的 树 是 会 
得 到 的 (最 坏 情 形 的 树 是 在 第 6 章 讨论 过 的 二 项 树 ) 。 








图 8-12 N=16 时 最 坏 情形 的 树 


为 了 实现 我 们 的 想法 , 需要 记 住 每 一 棵 树 的 大 小 。 由 于 我 们 实际 上 只 使 用 一 个 数组 , 因 
此 可 以 让 每 个 根 的 数组 元 素 包含 它 的 树 的 大 小 的 负 值 。 这 样 一 来 , 初始 时 树 的 数组 表示 就 都 
是 -1 了。 当 union 被 执行 时 , 要 检查 树 的 大 小 ; 新 的 大 小 是 老 的 大 小 的 和 。 这 样 , 按 大 小 
求 并 的 实现 根本 不 存在 困难 , 并 且 不 需要 额外 的 空间 , 其 速度 平均 也 很 快 。 对 于 真正 所 有 合 
理 的 模型 , 业已 证 明 , 若 使 用 按 大 小 求 并 则 连续 M 次 运算 需要 0O(W) 平 均 时 间 。 这 是 因为 当 
随机 的 诸 union 执行 时 整个 算法 一 般 只 有 一 些 很 小 的 集合 (通常 含 一 个 元 素 ) 与 大 集合 
合并 。 

另外 一 种 实现 方法 为 按 高 度 求 并 ( union- by- height), 它 同样 保证 所 有 的 树 的 深度 最 多 是 
O(log N) .我们 跟踪 每 棵 树 的 高 度 而 不 是 大 小 并 执行 那些 union 使 得 浅 的 树 成 为 深 的 树 的 子 
树 。 这 是 一 种 平缓 的 算法 , 因为 只 有 当 两 棵 相等 深度 的 树 求 并 时 树 的 高 度 才 增 加 ( 此 时 树 的 高 
度 增 1)。 这 样 , 按 高 度 求 并 是 按 大 小 求 并 的 简单 修改 。 由 于 零 的 高 度 不 是 负 的 , 因此 我 们 实际 
上 存储 高 度 的 负 值 再 减 去 1。 初 始 时 所 有 的 项 都 是 -1。 

图 8-13 显示 了 和 森林 以 及 它 对 于 按 大 小 求 并 和 按 高 度 求 并 的 非 显 式 表示 。 图 8-14 中 的 程序 
实现 的 是 按 高 度 求 并 的 代码 。 
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图 8-13 森林 以 及 它 对 于 按 大 小 求 并 和 按 高 度 求 并 的 非 显 式 表示 
/** 


* Union two disjoint sets using the height heuristic. 
* For simplicity, we assume rootl and root2 are distinct 
* and represent set names. 
* @param rootl the root of set 1. 
* @param root2 the root of set 2. 
*/ 
public void union( int rootl, int root2 ) 


{ 


O0 4 DUN AW DH — 


if( s[ root2 ] < s[ rootl ] ) // root2 is deeper 
s[ rootl ] = root2; // Make root2 new root 
else 


{ 


if( s[ rootl ] == s[ root2 ] ) 
s[ rootl ]--; // Update height if same 
s[ root2 ] = root1; // Make rootl new root 





图 8-14 按 高 度 ( 秩 ) 求 并 的 程序 


8.5 路 径 压 缩 


迄今 所 描述 的 union/find 算法 对 于 大 多 数 的 情形 都 是 完全 可 以 接受 的 , 它 非常 简单 ,而 且 
对 于 连续 M 个 指令 (在 所 有 的 模型 下 ) FAC ER. AL, OCM log N) 的 最 坏 情 况 还 是 可 能 
相当 容易 和 自然 发 生 的 。 例 如 , 如果 我 们 把 所 有 的 集合 放 到 一 个 队列 中 并 重复 地 让 前 两 个 集合 
出 队 而 让 它们 的 并 入 队 , 那么 最 坏 的 情况 就 会 发 生 。 如 果 运 算 find 比 union 多 很 多 , 那么 其 
运行 时 间 就 比 快速 查找 算法 ( quick-find algorithm) 的 用 时 要 长 。 而 且 应 该 清楚 , 对 于 union 算 
法 丽 怕 没有 更 多 改进 的 可 能 。 这 是 基于 这 样 的 观察 : 执行 合并 操作 的 任何 算法 都 将 产生 相同 的 
最 坏 情形 的 树 ,， 因 为 它 必然 会 随意 打破 树 间 的 平衡 。 因 此 , 无 需 对 整个 数据 结构 重新 加 工 而 使 
算法 加 速 的 唯一 方法 是 对 find 操作 做 些 更 明智 的 工作 。 

这 种 明智 的 操作 叫 作 路 径 压 缩 (path compression) 。 路 径 压 缩 在 find 操作 期 间 进行 而 与 用 
来 执行 union 的 方法 无 关 。 设 操作 为 fina( x), 此 时 路 径 压缩 的 效果 是 ; 从 x 到 根 的 路 径 上 
的 每 一 个 节点 都 使 其 父 节 点 成 为 该 树 的 根 。 图 8-15 指出 在 对 图 8-12 的 普通 的 最 坏 的 树 执行 
find(14) 后 路 径 压 缩 的 效果 。 

路 径 压 缩 的 实施 在 于 使 用 额外 的 两 个 链 的 变化 , 节点 12 和 13 现在 离 根 近 了 一 个 位 置 ， 而 
节点 14 和 15 现在 离 根 近 了 两 个 位 置 。 因 此 , 对 这 些 节点 未 来 的 快速 存 取 将 (我 们 希望 ) 由 于 花 
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费 额 外 的 工作 来 进行 路 径 压 缩 而 得 到 补偿 。 





图 8-15 路 径 压缩 的 一 个 例子 


正如 图 8-16 中 的 程序 所 指出 的 , 路 径 压缩 对 基本 的 fina 操作 只 进行 了 不 大 的 改变 。 对 
find 例 程 来 说 , 唯一 的 变化 是 使 得 s[xj 等 于 由 find 返回 的 值 ; 这 样 , 在 集合 的 根 被 递归 地 找到 
以 后 , x 的 父 链 就 引用 它 。 这 对 通 向 根 的 路 径 上 的 每 一 个 节点 递归 地 出 现 , 因此 实现 了 路 径 压 缩 。 


/** 

* Perform a find with path compression. 

* Error checks omitted again for simplicity. 
* @param x the element being searched for. 

* (return the set containing x. 

*/ 
public int find( int x ) 


CAN DU AWN YS 


if( s[ x J «0 ) 
return x; 
else 
return s[ x ] = find( s[ x ] ); 





图 8-16 用 路 径 压 缩 对 不 相交 集 进 行 find 的 程序 


当 任意 执行 一 些 union 操作 时 , 路 径 压 缩 是 一 个 好 的 想法 , 因为 存在 许多 的 深层 节点 并 通 
过 路 径 压缩 将 它们 移 近 根 节点 。 业 已 证 明 ， 当 在 这 种 情况 下 进行 路 径 压缩 时 , 连续 M 次 运算 最 
多 需要 OCM log N) 的 时 间 。 不 过 , 在 这 种 情形 下 确定 平均 情况 的 性 能 如 何 仍然 是 一 个 尚未 解决 
的 问题 。 

路 径 压 缩 与 按 大 小 求 并 完全 兼容 , 这 就 使 得 两 个 例 程 可 以 同时 实现 。 由 于 单独 进行 按 大 小 
求 并 要 以 线性 时 间 执 行 连续 M 次 运算 ,因此 还 不 清楚 在 路 径 压 缩 中 涉及 的 额外 一 趟 工作 平均 地 
看 是 否 值得 。 这 个 问题 实际 上 仍然 没有 解决 。 不 过 后 面 我 们 将 会 看 到 , 路 径 压 缩 与 灵巧 求 并 法 
则 的 结合 保证 在 所 有 情况 下 都 将 产生 非常 有 效 的 算法 。 

路 径 压 缩 不 完全 与 按 高 度 求 并 兼容 , 因为 路 径 压缩 可 以 改变 树 的 高 度 。 我 们 根本 不 清楚 如 
何 有 效 地 去 重新 计算 它们 。 答 案 是 不 计算 ! 此 时 , 对 于 每 棵 树 所 存储 的 高 度 是 估计 的 高 度 (有 
时 称 为 秩 (rank) ) , 但 实际 上 按 秩 求 并 ( 它 正 是 现在 已 经 变 成 的 样子 ) 理论 上 和 按 大 小 求 并 效率 
是 一 样 的 。 不 仅 如 此 , 高 度 的 更 新 也 不 如 大 小 的 更 新 频繁 。 与 按 大 小 求 并 一 样 , 我 们 也 不 清楚 
路 径 压 缩 平均 是 否 值得 。 下 一 节 将 证 明 , 使 用 两 种 求 并 试探 法 , 路 径 压 缩 都 能 够 显著 地 减少 最 
坏 情 况 运 行 时 间 。 


8.6 ”路径 压缩 和 按 秩 求 并 的 最 坏 情形 


当 使 用 两 种 试探 性 方法 时 ， 算 法 在 最 坏 情 形 下 几乎 是 线性 的 。 特 别 地 ， 在 最 坏 情形 下 需要 
的 时 间 是 O(Ma(M, N)) (假设 MN)， 其 中 ，a( M，N) 是 一 个 增长 极其 缓慢 的 函数 ， 对 任 
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何 实际 问题 的 任何 目标 都 不 会 超过 5。 然 而，a(M，N) 却 不 是 常数 ， 因 此 运行 时 间 并 不 是 线 
性 的 。 

在 本 节 的 其 余部 分 ， 我 们 首先 考察 一 些 增长 非常 缓慢 的 函数 ， 然 后 在 8. 6. 2 ~ 8. 6. 4 节 中 ， 
我 们 在 N 个 元 素 的 世界 里 ， 为 一 个 至 多 包含 W -1 次 并 和 M 必 次 查 的 序列 证 明 一 个 最 坏 情况 的 
界 ， 这 里 采用 按 秩 求 并 和 路 径 压 缩 。 如 果 用 按 大 小 求 并 代替 按 秩 求 并 ， 则 这 个 界 同 样 是 成 
立 的 。 

8.6.1 缓慢 增长 的 函数 
考虑 递 推 式 : 
0 Nxl 
i ide T Ds«1 N»1 d 
在 这 个 等 式 中 ，7T( NN) 表 示 从 NN 开始 我 们 必须 迭代 应 用 7 N) 直到 达到 1 (或 更 小 ) 的 迭代 次 数 。 
我 们 假设 A(N) 是 一 个 定义 完好 的 函数 ， 可 以 将 YN 减 小 。 将 等 式 的 解 称 为 广 (N) 。 

我 们 已 经 在 研究 折 半 查找 的 时 候 见 到 过 这 种 递 推 。 在 那里 , AN) = N/2， 每 一 步 都 将 入 减 
半 。 我 们 知道 最 多 log N 次 以 后 会 达到 1， 所 以 我 们 有/"(N) =log N( 低 阶 项 等 被 忽略 ) 。 观 
察 到 在 这 种 情况 下 ， ie (N) 比 AN) 小 很 多 。 (N) "(N) 

图 8-17 给 出 了 针对 不 同 的 /(N) 的 TON) 的 解 。 在 我 们 的 问题 中 ， 最 
BE IK) ef CN) = log N, 解 T(N) = log N 称 为 和 迭代 对 数 (iterated 
logarithm ^) 。 和 迭代 对 数 表示 我 们 要 对 N 迭代 取 对 数 直到 得 到 1 的 次 数 ， 

是 一 个 增长 相当 缓慢 的 函数 。 观 察 到 log "2 21, log'4 22, log' 16 23, 
log' 65536 =4, log'25?* 25, 但 是 别 忘 了 2 是 一 个 20000 位 数 。 所 以 
即使 log*N 是 一 个 递增 函数 ， 但 就 任何 实际 目的 而 言 ， 它 最 多 取 到 5。 
但 是 我 们 还 可 以 造 出 增长 更 加 缓慢 的 函数 。 例 如 ， 如 果 /(N) = log" N, 
W TON) =log“N。 事 实 上 ， 我 们 可 以 随心 所 欲 地 加 星 号 ， 来 制造 出 增长 





OLLIE 
8.6.2 利用 递归 分 解 的 分 析 


现在 ,我 们 对 =Q(N) 次 union /fina 操作 序列 的 运行 时 间 建立 
一 个 相当 严格 的 界 ，union 和 find 可 以 以 任何 顺序 出 现 , 但 是 union 图 8-17 送 代 函数 的 
是 按 秩 进行 而 find 则 利用 路 径 压缩 完成。 TO 
我 们 通过 建立 涉及 秩 的 性 质 的 两 个 引 理 开始 。 图 8-18 给 出 了 两 个 引 理 的 直观 图 示 。 





图 8-18 一 棵 大 的 不 相交 集 树 ( 节点 下 面 的 数 是 秩 ) 


引 理 8. 1 当 执 行 一 系列 union 指令 时 ,一 个 秩 为 r>0 的 节点 必然 至 少 有 一 个 孩子 具有 
EU, 1, ore. 





O BRA “ER.” 一 一 译 者 注 





342 


236 第 8 章 





HEAR: 

数学 归纳 法 。 对 于 基准 情形 +=1， 引 理 显然 成 立 。 当 一 个 节点 从 秩 为 r+ -1 增长 到 秩 为 
时 ， 它 会 获得 一 个 秩 为 r -1 的 孩子 。 根 据 归 纳 法 假设 , 它 已 经 有 了 秩 为 0，1 ，…, r-2 Wi 
子 ， 于 是 引 理 得 证 。 口 


下 一 个 引 理 看 似 多 少 有 些 显 然 ， 不 过 它 在 我 们 的 分 析 中 却 是 至 关 重 要 的 。 

引 理 8.2 在 union/Aind 算 法 的 任 一 时 刻 ， 从 树叶 到 根 的 路 径 上 的 节点 的 秩 单 调 增 加 。 

证 明 : 

如 果 不 存在 路 径 压缩 ， 那 么 该 引 理 显然 成 立 。 如 果 在 路 径 压缩 后 某 个 节点 v 是 w 的 一 个 后 
ff. ABA HAE union 操作 时 显然 v 必然 还 是 w 的 一 个 后 裔 。 因 此 ，z 的 秩 小 于 w 的 秩 。 

口 

设 我 们 有 两 种 算法 A 和 B。 算 法 A 能 用 并 且 能 正确 地 计算 出 所 有 答案 , 但 是 算法 B 不 能 正 
确 计 算 ， 甚 至 不 能 产生 有 意义 的 答案 。 然 而 ， 设 算法 4 的 每 一 步 都 可 以 映射 到 算法 B 中 的 一 个 
等 价 步骤 。 则 容易 看 到 ， 算 法 好 的 运行 时 间 就 精确 描述 了 算法 4 的 运行 时 间 。 

我 们 可 以 利用 这 个 思路 来 分 析 不 相交 集 数据 结构 的 运行 时 间 。 我 们 将 描述 一 个 算法 B， 其 
运行 时 间 和 不 相交 集结 构 的 时 间 完 全 一 样 ， 再 描述 算法 C， 其 运行 时 间 和 算法 B 完全 一 样 。 则 
算法 C 的 任何 界 都 将 是 不 相交 集 数据 结构 的 界 。 

部 分 路 径 压 缩 

算法 A 是 标准 的 按 秩 求 并 和 路 径 压 缩 操作 的 序列 。 我 们 设计 算法 B, 使 其 与 算法 A 进行 完 
全 一 样 的 路 径 压缩 操作 序列 。 在 算法 B 中 ， 我 们 在 做 任何 查找 之 前 就 把 所 有 求 并 做 完 。 于 是 算 
ik A 中 的 每 个 查找 操作 被 算法 B 中 的 一 次 部 分 查找 ( partial find) 替换 。 一 次 部 分 查找 操作 可 确 
定 要 查 的 项 以 及 路 径 压缩 一 路 向 上 所 处 理 到 的 那个 节点 。 该 节点 就 是 在 算法 4 中 做 对 应 的 查找 
时 会 得 到 的 那个 根 节点 。 

图 8-19 展示 了 算法 A 和 算法 中 最 终 将 得 到 等 价 的 树 (森林 ) ， 容 易 看 出 算法 4 的 查找 和 算 
法 B 的 部 分 查找 都 进行 了 完全 一 样 多 的 父 节点 改变 。 但 是 算法 B 分 析 起 来 更 简单 ， 因 为 我 们 已 
经 将 并 和 查 的 混合 项 从 等 式 中 去 掉 了 。 要 分 析 的 基本 量 是 任何 部 分 查找 序列 中 可 能 发 生 的 父 节 
点 改变 的 次 数 ， 因 为 在 任何 带路 径 压缩 的 查找 中 ， 除 了 最 项 上 的 两 个 节点 外 ， 所 有 节点 都 将 获 
得 新 的 父 节点 。 
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图 8-19 并 和 查找 的 操作 序列 被 蔡 换 为 有 等 价 开销 的 并 和 部 分 查找 操作 
递归 分 解 
我 们 下 一 步 要 做 的 是 将 每 棵 树 分 成 两 半 : 上 半 部 分 和 下 半 部 分 。 然 后 我 们 要 确认 上 半 部 分 
的 部 分 查找 次 数 加 上 下 半 部 分 的 部 分 查找 次 数 正好 等 于 部 分 查找 的 总 次 数 。 之 后 我 们 要 为 这 村 
树 的 路 径 压 缩 的 总 开销 写 一 个 公式 ， 写 成 上 半 部 分 路 径 压 缩 的 开销 加 上 下 半 部 分 路 径 压 缩 的 开 
销 。 先 不 说 如 何 确定 哪些 节点 在 上 半 部 分 、 哪 些 在 下 半 部 分 ， 只 看 图 8-20、 图 8-21 和 图 8-22， 就 
能 立刻 明白 大 多 数 我 们 想 做 的 事情 是 怎么 做 成 的 。 
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8-20 递归 分 解 。 情形 1 部 分 查找 完全 在 下 
E 
下 

图 8-21 递归 分 解 。 情 形 2， 部 分 查找 完全 在 上 
E 
3Iv 


图 8-22 ”递归 分 解 。 情 形 3: 部 分 查找 从 下 进行 到 上 


在 图 8-20 中 ， 部 分 查找 完全 在 下 半 部 分 。 于 是 下 半 部 分 的 一 次 部 分 查找 对 应 一 次 原始 的 
部 分 查找 ， 开 销 可 以 被 递归 地 分 配给 下 半 部 分 。 

在 图 8-21 中 ， 部 分 查找 完全 在 上 半 部 分 。 于 是 上 半 部 分 的 一 次 部 分 查找 对 应 一 次 原始 的 
部 分 查找 ， 开 销 可 以 被 递归 地 分 配给 上 半 部 分 。 

然而 ， 我 们 会 在 图 8-22 中 遇 到 很 多 麻烦 。 这 里 x 位 于 下 半 部 分 ,而 y 位 于 上 半 部 分 。 路 径 
压缩 要 求 从 x 到 y 的 孩子 这 条 路 径 上 的 所 有 节点 都 把 y 认 作 父 节点 。 这 对 于 上 半 部 分 的 节点 没 
有 问题 ， 但 是 对 于 下 半 部 分 的 节点 就 不 行 了 : 任何 下 半 部 分 的 递归 开销 必须 要 把 所 有 内 容 保 持 
在 下 半 部 分 。 所 以 如 图 8-23 所 示 ， 我 们 可 以 在 上 半 部 分 进行 路 径 压 缩 ， 但 是 当下 半 部 分 某 些 
节点 需要 更 新 父 节点 时 ， 就 不 清楚 该 怎么 做 了 ， 因 为 那些 下 面 节点 的 新 父 节点 不 能 是 上 面 的 节 
BR, 并且 新 的 父 节 点 也 不 能 是 其 他 下 面 的 节点 。 
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图 8-23 递归 分 解 。 情 形 3: 路 径 压 缩 可 以 在 上 面 的 节点 上 进行 ， 但 是 下 面 的 节点 必须 得 到 新 
的 父 节 点 ;这 些 父 节点 不 能 是 上 面 的 父 节 点 ， 并 且 它 们 也 不 能 是 其 他 下 面 的 节点 
唯一 的 选择 是 做 一 个 循环 ， 把 这 些 节 点 的 父 节 点 变 成 它们 自己 ， 并 且 确 保 这些 父 节点 的 改 
变 被 正确 地 记 在 账 上 。 虽 然 这 是 一 种 新 的 算法 ， 因 为 我 们 不 再 能 用 它 生 成 一 棵 一 样 的 树 了 ， 但 
其 实 不 需要 一 样 的 树 ; 我 们 只 需要 确定 每 个 原始 的 部 分 查找 都 能 被 映射 到 一 次 新 的 部 分 查找 操 
[346] E, 并且 开销 是 一 样 的 。 图 8-24 展示 了 新 的 树 长 成 的 样子 ， 于 是 剩 下 的 大 事 就 是 记 账 了 。 


a) 


人 






图 8-24 递归 分 解 。 情 形 3: 下 面 节 点 的 新 父 节 点 就 是 这 些 节 点 自己 


从 图 8-24 AB, JA x 到 y 的 路 径 压缩 可 以 分 为 三 部 分 。 首 先是 从 z( 向 上 路 径 中 的 第 一 个 
上 面 的 节点 ) 到 y 的 路 径 压 缩 。 很 明显 这 些 开销 都 已 经 递归 地 记 账 了 。 然 后 是 从 下 面 最 项 端的 
节点 w 到 z 的 开销 。 但 那 只 是 1 个 单位 ,而且 每 次 部 分 查找 中 ， 这 种 情况 最 多 只 有 一 次 。 事 实 
上 我 们 还 可 以 做 得 更 好 一 点 : 在 上 半 部 分 的 每 次 部 分 查找 中 ， 这 种 情况 最 多 只 有 一 次 。 但 我 们 
怎样 对 从 x 到 w 的 路 径 上 父 节点 的 改变 做 记 账 呢 ? 一 个 思路 是 说 明 这 些 改变 会 与 从 x 到 w RE 
一 次 部 分 查找 有 完全 一 样 的 开销 。 但 这 种 说 明 有 个 大 问题 : 它 把 一 次 原始 的 部 分 查找 转换 成 了 
一 次 上 部 的 部 分 查找 加 上 一 次 下 部 的 部 分 查找 ， 这 意味 着 操作 的 次 数 M 不 再 是 相同 的 了 。 幸 
运 的 是 ， 还 有 一 种 更 简单 的 说 明 : 因为 下 部 的 每 个 节点 只 能 有 一 次 机 会 把 父 节点 变 成 自己 ， 所 
以 开销 的 次 数 是 被 下 部 节点 的 个 数 限 制 住 的 ， 这些 节 点 的 父 节 点 也 在 下 部 ( 即 w 不 包括 在 内 ) 。 

有 一 个 细节 我 们 必须 说 明 。 我 们 的 改写 将 x 和 w 之 间 的 节点 从 到 y 的 路 径 上 分 离 出 去 了 ， 
那么 在 后 续 的 部 分 查找 中 会 不 会 陷入 麻烦 ? 答案 是 不 会 。 在 原始 的 部 分 查找 中 ,假设 x* 和 w 之 
间 有 任意 一 个 节点 要 介入 后 续 的 原始 部 分 查找 。 在 这 种 情况 下 ， 它 将 会 跟 y 的 某 个 祖先 相关 ， 
而 一 旦 这 种 事情 发 生 ， 那 些 节 点 的 任意 一 个 都 会 是 我 们 改写 的 最 顶端 的 “下 部 节点 ”"。 所 以 在 
后 续 的 部 分 查找 中 ， 原 始 部 分 查找 的 父 节 点 改变 将 对 应 改写 中 一 个 单位 的 开销 。 

接 下 来 可 以 进行 分 析 了 。 令 M 为 原始 部 分 查找 操作 的 总 次 数 。 令 M, 为 仅仅 发 生 在 上 半 部 
分 的 部 分 查找 操作 的 总 次 数 ，M, 为 仅仅 发 生 在 下 半 部 分 的 部 分 查找 操作 的 总 次 数 。 令 N 为 节 
点 总 数 。 令 N, 为 上 半 部 分 的 节点 总 数 ，N, 为 下 半 部 分 的 节点 总 数 ， 令 Nu 为 下 部 非 根 节点 的 


不 相交 全 类 239 








个 数 ( 即 在 任何 部 分 查找 之 前 ， 其 父 节 点 也 在 下 部 的 下 部 节点 的 个 数 ) 。 
引 理 8. 3 
M=M,+M, 
WEBB: 


在 情形 1 和 3 中 ， 每 个 原始 的 部 分 查找 操作 都 被 蔡 换 为 一 次 上 半 部 分 的 部 分 查找 ， 而 在 情 
形 2 中 ， 它 被 替换 为 一 次 下 半 部 分 的 部 分 查找 。 所 以 每 个 部 分 查找 都 只 被 蔡 换 为 在 两 半 之 一 发 
生 的 仅 有 的 一 次 部 分 查找 操作 。 口 

我 们 的 基本 思路 是 ， 把 节点 进行 划分 ， 使 得 所 有 秩 等 于 或 低 于 * 的 节点 都 在 下 部 ， 剩 下 的 
节点 在 上 部 。 关 于 的 选择 在 稍 后 的 证 明 中 介绍 。 下 一 个 引 理 证 明 ， 通 过 将 开销 分 开 成 上 下 两 
组 ,我 们 可 以 为 父 节点 改变 次 数 提供 一 种 递归 公式 。 关 键 思路 之 一 是 ;递归 公式 不 仅 显 然 应 该 
写成 跟 屠 和 NN 有关 ， 而 且 还 要 跟 组 内 最 大 的 秩 有 关 。 

引 理 8.4 令 C(NM，N，r) 为 在 一 个 对 和 个 项 进行 好 次 带路 径 压 缩 的 查找 序列 上 父 节 点 改 
变 的 次 数 ， 其 中 7 是 NN 个 项 的 最 大 秩 。 假 设 我 们 把 节点 进行 划分 ， 使 得 所 有 秩 等 于 或 低 于 s 的 
节点 都 在 下 部 ， 剩 下 的 节点 在 上 部 。 在 假设 有 适当 初始 条 件 的 情况 下 ， 

C(M,N,r) < C(M,,N,,r) + C(M,,N, ss) +M, + Nas 

WEBB: 

在 三 种 情形 中 进行 的 路 径 压 缩 被 CCM,, N, 0D) +C(M,, N,, s) Pri Fo TROP 3 中 的 节 
点 ww 用 以 记 账 。 最 后 ， 所 有 路 径 上 的 其 他 下 部 节点 都 是 非 根 节点 ， 在 整个 压缩 过 程 中 ， 
的 父 节 点 至 多 一 次 可 以 被 设置 成 它们 自己 。 它 们 是 用 Ns 记 账 的 。 

如 果 使 用 按 秩 求 并 ， 则 由 引 理 8. 1， oe AE o mae Made 
f ERO, 1, =, se 每 个 那样 的 孩子 节点 都 一 定 是 下 部 的 根 节 点 (它们 的 父 节 点 是 上 部 节点 ) 。 
于 是 对 每 个 上 部 节点 ，s +2 个 节点 (s+1 个 孩子 节点 加 上 该 上 部 节点 自己 ) 一 定 没 有 被 包含 在 
Ns 中 。 所 以 ， 我 们 可 以 改写 引 理 8.4 如 下 : 

引 理 8.5 SCCM, N, 7) 为 在 一 个 对 N 个 项 进行 1 次 带路 径 压 缩 的 查找 序列 上 父 节 点 改 
变 的 次 数 ， 其 中 + 是 NN 个 项 的 最 大 秩 。 设 我 们 把 节点 进行 划分 ,使 得 所 有 秩 等 于 或 低 于 s 的 节 
点 都 在 下 部 ， 剩 下 的 节点 在 上 部 。 在 假设 有 适当 初始 条 件 的 情况 下 ， 

C(M,N,r) < C(M,,N,,r) + C(M,,N,,s) +M, +N- (s +2)N, 

WERA: 

在 引 理 8. 4 EH ON, <N- (s 2) Ns O 

如 果 我 们 看 一 下 引 理 8.5， 会 发 现 CCM，N，r) 是 用 两 个 较 小 的 实例 递归 定义 的 。 在 这 一 
点 上 ， 我 们 的 基本 目标 是 ， 通 过 提供 一 个 界 来 把 两 个 实例 之 一 去 掉 。 我 们 打算 去 掉 C(M, N, 
r)。 为 什么 ”因为 如 果 我 们 这 样 做 ，C( MM,，N,，s) 就 会 被 剩 下 来 。 在 那 种 情况 下 ， 我 们 就 有 
了 一 个 递归 公式 ， 其 中 被 减 小 到 了 so WR s 充分 小 ， 我 们 就 可 以 用 式 (8.1) 的 一 个 变形 ， 
t Bl 


0 NxlI 
TUN) = 8.2 
UD) — J) +M N>1 si 


的 解 是 0( Mf*(N) ) 。 于 是 ， 让 我 们 从 COM, N, r) 的 一 个 简单 的 界 开始 : 

定理 8.1 

C(M,N,r) < M +N logr 
证 明 : 
我 们 从 引 理 8. 5 开始 : 
C(M,N,r) < C(M,,N,,r) +C(M,,N,,s) +M, +N - (s +2)N, (8.3) 

观察 到 在 上 半 部 分 ， 只 有 秩 为 *+1，s+2，...，r 的 节点 ， 于 是 没有 节点 可 以 改变 自己 的 父 节 
点 超过 (上 -s -2) 次 。 这 为 CCM，N，r) 导 出 了 一 个 平凡 的 界 Ni(r-s-2)。 所 以 ， 
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C(M,N,r) < N(r-s-2) +C(M,,N,,s) +M +N-(s+2)N, (8.4) 
合并 项 ， 
C(M,N,r) < N(r-2s -4) +C(M,,N,,s) +M +N (8.5) 
A s =Lr/2 l Wr-2s-4<0, PV 
C(M,N,r) < C(M,,N,,Lr/2 1) +M, +N (8.6) 
等 价 地 ， 根 据 引 理 8.3，M =M + M,( 没 有 这 个 ， 证 明 就 瓦解 了 ) , 
C(M,N,r) -M < C(M,,N,,Lr/2J) -M, +N (8.7) 
^: D(M, N, r) =C(M, N, r) - M, Hi 
D(M,N,r) < D(M,,N,.L1r/2]) +N (8.8) 
意味 着 D(M, N, r) «N log r。 这 就 得 到 C(M, N, r) <M+N log r, O 
定理 8.2 任意 N -1 次 并 和 带路 径 压 缩 的 W 次 查 的 序列 ， 在 查找 过 程 中 最 多 做 M + 
N log log 次 父 节 点 改变 。 
WERA: 
因为 r<log NW， 所 以 这 个 界 可 以 立刻 从 定理 8. 1 得 到 。 口 


8.6.3 O(M log’ N) t 

定理 8.2 中 的 界 已 经 很 好 了 ， 但 是 再 研究 一 下 ， 我 们 还 可 以 做 得 更 好 。 回 顾 递归 分 解 的 一 
个 中 心思 想 是 选 一 个 尽 可 能 小 的 s。 但 是 要 做 到 这 一 点 ， 其 他 的 项 也 必须 小 ， 并 且 当 * 变 小 时 ， 
我 们 会 期 望 C(M,，N,, mr) 变 大 。 但 是 C(M，N,，r) 的 界 用 到 了 一 个 原始 的 估计 ， 而 定理 8. 1 
自己 现在 可 以 被 用 来 给 此 项 做 个 更 好 的 估计 。 既 然 现 在 CCM,, Mo r 的 估计 将 会 变 低 ， 因 此 
我 们 将 可 以 用 一 个 更 小 的 ;。 


定理 8.3 
C(M,N,r) «2M +N log’r 
证 明 : 
由 引 理 8. 5 我 们 得 到 
C(M,N,r) < C(M,,N,,r) + C(M,,N,,s) +M +N- (s+2)N, (8.9) 
由 定理 8.1，C(M，N，r) <M;+N, logro FE, 
C(M,N,r) < M, + Nllgr + CM,,N,,S) +M +N- (s+2)N, (8. 10) 
重新 排列 并 且 合并 项 ， 导 出 
C(M,N,r) < C(M,,N, s) +2M, +N-( -logr+2)N (8.11) 
所 以 选择 s =L log r」。 显 然 这 个 选择 意味 着 (s -log r +2) >0, 并且 因此 我 们 得 到 
C(M,N,r) < C(M,,N,,LlogrJ) +2M +N (8. 12) 
如 在 定理 8. 1 中 一 样 重新 排列 ， 我 们 得 到 
C(M,N,r) -2M < C(M,,N,,Llogr]) -2M, +N (8. 13) 
这 一 次 ， 令 D(M, N, r) =C(M, N, r) -2M, Wil 
D(M,N,r) < D(M,,N,,Llog rj) +N (8. 14) 
这 意味 着 DCM, N, r) «N log'"r。 这 样 就 导出 了 CCM, N, r) <2M+N log' r, L] 


8.604 O(Ma(M, N))# 
并 不 令 人 惊讶 的 是 ， 我 们 现在 可 以 用 定理 8.3 来 改进 定理 8.3。 


定理 8.4 

C(M,N,r) < 3M +N log”r 
证 明 : 
遵循 定理 8. 3 的 证 明 步 又 ， 我 们 有 


C(M,N,r) < C(M,,N,,r) + C(M,,N, S) +M, +N - (s +2)N, (8. 15) 
根据 定理 8.3, C(M,, N,, r) «2M, +N, log*r, Jill 
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C(M,N,r) «2M, + N, log*r + C(M,,N,,5) +M,+N-(s +2)N, (8. 16) 
重新 排列 并 且 合 并 项 ， 导 出 
C(M,N,r) < C(M,,N,,s) +3M, +N - (s - log’r +2)N, (8.17) 
所 以 选择 =log*r, 45] 
C(M,N,r) < C(M,,N,,log’r) +3M, +N (8. 18) 
如 在 定理 8.1 和 8.3 中 一 样 重新 排列 ， 我 们 得 到 
C(M,N,r) -3M < C(M,,N,,log"r) -3M, + N (8.19) 
这 一 次 , 4 D(M, N, r) =C(M, N, r) -3M, Bil 
D(M,N,r) < D(M,,N,,loggr) +N (8. 20) 
这 意味 着 DCM, N, r) <N log”…r。 这 样 就 导出 了 C(M, Ner) «34 FN log? ro 口 


不 用 说 ， 我 们 可 以 无 限 继续 。 于 是 用 一 点 数学 知识 ， 我 们 就 得 到 一 系列 的 界 : 
C(M,N,r) «2M « Nlog'r 
C(M,N,r) «3M « Nlog""r 
C(M,N,r) < 4M +N log***r 
C(M,N,r) «5M +N log****r 
C(M,N,r) <6M+Nlog r 
每 个 这 样 的 界 都 会 看 上 去 比 前 一 个 更 好 ， 因 为 归根 结 底 ““ ” 越 多 ，log““*r 就 增长 得 越 
18. 但 是 ， 这 忽略 了 一 个 事实 ， 就 是 当 log” r EE log" r zig Fe] Ht, 6M 这 项 可 不 比 5M 这 
项 小 。 
所 以 我 们 要 做 的 是 优化 用 到 的 ““ ”的 数量 。 
定义 a( 必 ，N) 来 表示 要 用 到 的 ““” 的 最 优 数 量 。 特别 地 ， 


a(M,N) =min{i z1|log"'" "* (log N) < (M/N) | 
于 是 ，union/find 算法 的 运行 时 间 可 以 被 OC Ma(M, N) ) 所 限制 。 
定理 8.5 任意 N-1 次 并 和 带路 径 压 缩 的 M 次 查 的 序列 ， 在 查找 过 程 中 最 多 做 


(i+1)M +N log? pare (log N) 

WEBB: 

由 上 述 讨 论 以 及 r<log N 这 个 事实 可 得 结论 。 口 

定理 8.6 任意 N-1 次 并 和 带路 径 压 缩 的 M 次 查 的 序列 ， 在 查找 过 程 中 最 多 做 Ma (M, 

N) +2M 次 父 节点 改变 。 

WEBB: 

在 定理 8.5 rp, 将; EX a(M, N); 于 是 我 们 得 到 界 (; +1)M+N(M/N), s Ma(M, N) «2M, 
L1 


8.7 一 个 应 用 


应 用 union/find 数据 结构 的 一 个 例子 是 迷宫 的 生成 , 如 图 8-25 所 示 就 是 这 样 一 个 迷宫 。 在 
图 8-25 rp, 开始 点 位 于 图 的 左上 角 , 而 终止 点 是 在 图 的 右 下 角 。 我 们 可 以 把 这 个 迷宫 看 成 是 由 
单元 组 成 的 50 x 88 的 和 矩形, 在 该 矩形 中 , 左上 角 的 单元 被 连通 到 右 下 角 的 单元 , 而 且 这 些 单元 
与 相 邻 的 单元 通过 墙壁 分 离开 来 。 

生成 迷宫 的 一 个 简单 算法 是 从 各 处 的 墙壁 开始 ( 除 和 人口 和 出 口 之 外 ) 。 此 时 , 我 们 不 断 地 随 
机 选择 一 面 墙 , 如 果 被 该 墙 分 割 的 单元 彼此 不 连通 , 那么 我 们 就 把 这 面 墙 拆 掉 。 如 果 我 们 重复 
这 个 过 程 直 到 开始 单元 和 终止 单元 连通 , 那么 我 们 就 得 到 一 个 迷宫 。 实 际 上 不 断 地 拆 掉 墙壁 直 
到 每 一 个 单元 都 可 以 从 每 个 其 他 单元 达到 就 更 好 ( 这 就 会 使 迷宫 产生 更 多 误导 的 路 径 ) 。 
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图 8-25 一 个 50 x88 迷宫 


我 们 用 5 x5 迷宫 叙述 算法 。 图 8-26 显示 初始 的 状态 。 我 们 用 union/find 数据 结构 代表 彼 
此 互 连 的 单元 的 集合 。 开 始 的 时 候 , 各 处 都 有 墙 ， 而 每 个 单元 都 在 它 自己 的 等 价 类 中 。 





10 (1) {2} (3) (4) (51 (63 (7) {8} (93 (105 (1j (12j (13) {14} {15} (161 (17] {18} {19} {20} (21) 
(22) {23} {24} 


图 8-26 初始 状态 : 所 有 的 墙 都 存在 , 所 有 的 单元 都 在 它 自己 的 集合 中 


图 8-27 显示 算法 随后 的 一 个 阶段 , 这 是 在 一 些 墙 被 拆 掉 之 后 的 状态 。 设 在 该 阶段 连接 单元 8 
和 13 的 墙 被 随机 地 选 作 目标 。 因 为 单元 8 和 13 已 经 连通 (它们 在 相同 的 集合 中 ) ,所 以 我 们 也 就 
不 拆 掉 这 面 墙 , 拆 掉 它 就 使 得 迷宫 简单 化 了 。 设 单元 18 和 13 是 随机 选 出 的 下 一 个 目标 。 通 过 执 
[353] 77 PAK find 操作 我 们 看 到 它们 是 在 不 同 的 集合 中 ; 因此 单元 18 和 13 还 没有 连通 。 于 是 我 们 把 隔 
开 它 们 的 墙 拆 掉 , 如 图 8-28 所 示 。 注 意 , 这 次 操作 的 结果 是 包含 18 和 13 的 两 个 集合 通过 union 
操作 被 连 在 一 起 。 这 就 是 为 什么 连通 到 单元 18 的 每 个 单元 现在 已 与 连通 13 的 每 个 单元 连通 的 原 

因 。 该 算法 结束 时 每 个 单元 之 间 都 是 连通 的 , 如 图 8-29 所 示 , 构建 迷宫 的 工作 完成 。 








{0,1} {2} (3) {4,6,7,8,9,13,14} {5} {10,11,15} {12} {16,17,18,22} (19) {20} {21} {23} {24} 
i 


图 8-27 在 算法 的 某 个 时 刻 : 几 面 墙 被 拆 掉 , 集合 合并 。 如 果 在 这 个 时 候 在 单元 8 和 13 之 
间 的 墙 被 随机 地 选 定 , 那么 这 面 墙 将 不 拆 掉 , 因为 单元 8 和 13 已 经 是 连通 的 
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{0,1} {2} {3} {4,6,7,8,9,13,14,16,17,18,22} {5} (0,1,2,3,4,5,6,7,8,9,10,11,12,13,14, 


{10,11,15} (12) (19) (20) (21) (23) (24] 15,16,17,18,19,20,21,22,23,24] 
8-08 在 图 8-27 中 单元 18 和 13 之 间 的 墙 被 随机 8-29 最 后 , 24 面 墙 被 拆 掉 ， 所 有 的 元 素 都 在 
地 选 定 。 这 面 墙 被 拆 掉 ， 因 为 单元 18 和 同一 个 集合 中 


13 还 没有 连通 。 它 们 所 在 的 集合 被 合并 
这 个 算法 的 运行 时 间 由 union/find 的 开销 控制 。union/find 总 体 的 大 小 等 于 单元 的 个 数 。 
find 操作 的 次 数 与 单元 的 个 数 成 正比 , 因为 拆 掉 的 墙 的 数目 比 单元 的 个 数 少 1, 而 仔细 观察 可 
以 发 现 , 开始 的 时 候 墙 的 数目 只 有 大 约 单元 个 数 的 二 售 。 因此 , 如果 N 是 单元 的 个 数 ,由 于 每 
面 随机 选择 的 墙 有 两 次 find, 那么 整个 算法 估计 find 操作 的 次 数 (大 致 ) 在 2N 和 4N 之 间 。 
因此 算法 的 运行 时 间 可 以 取 为 OCN log" N), 这 个 算法 将 会 很 快 地 生成 一 个 迷宫 。 [354] 


小 结 


我 们 已 经 看 到 保持 不 相交 集合 的 非常 简单 的 数据 结构 。 当 union 操作 执行 时 ,就 正确 性 而 
言 ， 哪 个 集合 保留 它 的 名 字 是 无 关 紧要 的 。 这 里 ， 有 必要 注意 , 当 某 一 特定 的 步骤 尚未 完全 指 
定时 , 考虑 选择 方案 可 能 是 非常 重要 的 。 步 又 union 是 灵活 的 , 利用 这 一 点 , 我 们 能 够 得 到 一 
个 更 加 有 效 的 算法 。 

路 径 压 缩 是 自 调整 (self-adjustment) 的 最 早 形式 之 一 , 我 们 已 经 在 别 的 一 些 地 方 (伸展 树 、 
斜 堆 ) 见 到 过 。 它 的 使 用 非常 有 趣 ， 特别 是 从 理论 的 观点 来 看 ， 因为 它 是 算法 简单 但 最 坏 情 形 分 
析 却 并 不 那么 简单 的 第 一 批 例子 之 一 。 


练习 


8.1 指出 下 列 一 系列 指令 的 结果 : union(1, 2), union(3, 4), union(3, 5), union(1, 7), 
union(3, 6), union(8, 9), union(1, 8), union(3, 10), union(3, 11), union(3, 12), 
union(3, 13), union (14, 15), union (16, 0), union (14, 16), union (1, 3), 
union(1, 14), 其 中 ,union 是 
a. 任意 进行 的 。 

b. 按 高 度 进行 的 。 
c， 按 大 小 进行 的 。 

8.2 ”对 于 上 题 中 的 每 一 棵 树 ， 用 对 最 深 节 点 的 路 径 压 缩 执 行 一 次 find, 

8.3 ”编写 一 个 程序 来 确定 路 径 压缩 法 和 各 种 求 union 方法 的 效果 。 程 序 应 该 使 用 所 有 6 种 可 能 的 方 
法 处 理 一 个 很 长 的 等 价 操作 序列 。 

8.4 WEB], 如 果 union 按照 高 度 进行 , 那么 任意 树 的 深度 均 为 0(log N) 。 

8.5 ” 设 /(N) 是 一 个 定义 完好 的 函数 ， 可 以 将 N 减 成 一 个 较 小 的 数字 。 在 适当 的 初始 条 件 下 ， 递 推 公 
式 T(N) =N/F(N) * T(J(N)) +A 的 解 是 什么 ? 

8.6 a EWR M NV ,那么 M YK union/find 操作 的 运行 时 间 是 O(M) 。 

b. 证 明 , 如 果 M =N log N, 那么 M YK union/find 操作 的 运行 时 间 是 OCM) 。 

"e. WEM 2 OCN log log N) , MW) M XK union/find 操作 的 运行 时 间 是 多 少 ? 

"d. $ M=0(N log" N), M] M XK union/find 操作 的 运行 时 间 是 多 少 ? 


> 
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8.7 Tarjan 对 union/find 算法 的 原始 界定 义 了 
a(M, N) =minji>1 | (A(i, LM/N J) >log N)}, Kp 
A(1,j) 22 je 
A(i,1) = A(i - 1,2) iz2 
A(ij) = A(i - 1,A(ij-1)) ije2 
3X Hl A( m, n) Ackermann 函数 的 一 个 版 本 。a 的 两 种 定义 是 渐 近 等 价 的 吗 ? 
8.8 WEH, 对 于 由 8.7 节 中 的 算法 生成 的 迷宫 ,从 起 点 到 终点 的 路 径 是 唯一 的 。 
8.9 ”设计 一 个 生成 迷宫 的 算法 , 这 个 迷宫 不 含有 从 起 点 到 终点 的 路 径 , 但 却 有 一 个 性 质 , 即 拆除 预先 
指定 的 一 面 墙 后 则 建立 一 条 唯一 的 路 径 。 
“8. 10 假设 我 们 想 要 添加 一 个 附加 的 操作 deunion, 它 废除 尚未 被 废除 的 最 后 的 union 操作 。 
a. WEH, 如 果 我 们 按 高 度 求 并 以 及 不 用 路 径 压 缩 进行 find, 那么 deunion 操作 容易 进行 并 且 
连续 M 次 union, find 和 deunion 操作 花费 0(M log N) If [8] 
b. 为 什么 路 径 压 缩 使 得 deunion 很 难 进行 ? 
"e 指出 如 何 实现 所 有 三 种 操作 使 得 连续 M 次 操作 花费 OCM log N/log log N) 时间。 

“8.11 假设 我 们 想 要 添加 一 种 额外 的 操作 remove(x), 该 操作 把 x 从 当前 的 集合 中 除去 并 把 它 放 到 它 
自己 的 集合 中 。 指 出 如 何 修改 union/find 算法 使 得 连续 导 次 union, find ffl remove 操作 的 运 
行 时 间 为 0(M a(M, N) )。 

“8. 12 TERY, 如 果 所 有 的 union 都 在 find 之 前 , 那么 使 用 路 径 压 缩 的 不 相交 集 算法 需要 线性 时 间 , BU 


使 union 任意 进行 也 是 如 此 。 
"8.13. 证 明 , 如 果 诸 union 操作 任意 进行 , 但 路 径 压 缩 是 对 那些 find 进行 , 那么 最 坏 情 形 运行 时 间 为 
O(M log N). 


8.14 WEH, 如 果 union 按 大 小 进行 且 执 行路 径 压 缩 , 那么 最 坏 情 形 运行 时 间 为 O(MaCM, N)). 
8.15 8.6 节 的 不 相交 集 分 析 可 以 被 细 化 ， 来 为 小 N 提供 更 紧 的 界 。 
a. 证 明 C(M, N, 0) 和 C(M，N，1) 都 是 0。 
b. 证 明 CCM，VN，2) 最 多 是 M, 
c. 令 r<s8。 取 s=2, WH C(M，N，r) 最 多 是 M+N。 
8.16， 设 我 们 实现 对 fina( i ) 的 部 分 路 径 压缩 (partial path compression) 是 通过 使 在 从 ; 到 根 的 路 径 上 
的 每 一 个 其 他 节点 链接 到 其 祖父 ( 当 有 意义 时 ) 完 成 的 。 这 叫 作 路 径 平分 (path halving) 。 
a. 编写 一 个 过 程 完成 上 述 工作 。 
b. 证 明 , WRX find 操作 进行 路 径 平分 , 则 不 论 使 用 按 高 度 求 并 还 是 按 大 小 求 并 , 其 最 坏 情 
y 形 运行 时 间 缘 为 O(WMa(M，N) ) 。 
8.17 ”编写 一 个 能 够 生成 任意 大 小 的 迷宫 的 程序 。 使 用 Swing 包 来 生成 一 个 类 似 于 图 8-25 那样 的 迷宫 。 
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图 论 算 法 





在 这 一 章 , 我 们 讨论 图 论 中 几 个 一 般 的 问题 。 这 些 算法 不 仅 在 实践 中 有 用 ,而且 还 是 非常 
有 趣 的 ,因为 在 许多 实际 生活 的 应 用 中 若 不 仔细 注意 数据 结构 的 选择 将 导致 它们 的 速度 过 慢 。 
本 章 我 们 将 

e 介绍 几 个 现实 生活 中 发 生 的 问题 , 它们 可 以 转化 成 图 论 问题 。 

e 给 出 一 些 算法 以 解决 儿 个 常见 的 图 论 问题 。 

e 指出 适当 选择 数据 结构 可 以 极 大 地 降低 这 些 算法 的 运行 时 间 。 

© 介绍 一 个 被 称 为 深度 优先 搜索 ( depth-first search) 的 重要 技巧 , 并 指出 它 如 何 能 够 以 线性 

时 间 求解 若干 表面 上 非 平 几 的 问题 。 


9.1 若干 定义 


一 个 图 (graph)G=(V, E) Hia vertex) HR V 和 边 (edge) 的 集 E 组 成 。 每 一 条 边 就 是 一 
幅 点 对 (v, w), Hv, weV, AME MM (arc), WR AREA EIN, 那么 图 就 是 有 向 
(directed) 的。 有 向 的 图 有 时 也 叫 作 有 向 图 (digraph) 。 项 点 All v $83 ( adjacent) 4 HA (v, 
w) eE, 在 一 个 具有 边 (v, w) 从 而 具有 边 (w，v) 的 无 向 图 中 , w Alo BREA v tA 邻接 。 有 
时 候 边 还 具有 第 三 种 成 分 , 称 作 权 (weight) 或 值 (cost) 。 

图 中 的 一 条 路 径 (path) 是 一 个 顶点 序列 wi ，w,，w3，…，wn 使 得 (wi;, w,,,) EE, 1<i<N, 
这 样 一 条 路 径 的 长 (length ) 是 为 该 路 径 上 的 边 数 , 它 等 于 N -1。 从 一 个 项 点 到 它 自 身 可 以 看 成 
是 一 条 路 径 ; 如 果 路 径 不 包含 边 , 那么 路 径 的 长 为 0。 这 是 定义 特殊 情形 的 一 种 便捷 方法 。 如 
果 图 含有 一 条 从 一 个 顶点 到 它 自 身 的 边 (v, v), WARE v, v AEE (loop), RIZ 
论 的 图 一 般 将 是 无 环 的 。 一 条 简单 路 径 是 这 样 一 条 路 径 , 其 上 的 所 有 顶点 都 是 互 异 的 , 但 第 一 
个 顶点 和 最 后 一 个 顶点 可 能 相同 。 

有 向 图 中 的 圈 (cycle) 是 满足 w, =w, 且 长 至 少 为 1 的 一 条 路 径 ; 如 果 该 路 径 是 简单 路 径 ， 
那么 这 个 圈 就 是 简单 圈 。 对 于 无 向 图 , 我 们 要 求 边 是 互 异 的 。 这 些 要 求 的 根据 在 于 无 向 图 中 的 
Kíktu, v, 不 应 该 被 认为 是 圈 , 因为 (ww,v) 和 (v, 4) 是 同一 条 边 。 但 是 在 有 向 图 中 它们 是 两 
条 不 同 的 边 , 因此 称 它们 为 圈 是 有 意义 的 。 如果 一 个 有 向 图 没有 圈 , 则 称 其 为 无 圈 的 (acyclic ) 。 
一 个 有 向 无 圈 图 有 时 也 简称 为 DAG, 

如 果 在 一 个 无 向 图 中 从 每 一 个 顶点 到 每 个 其 他 顶点 都 存在 一 条 路 径 , 则 称 该 无 向 图 是 连通 
的 (connected) 。 具 有 这 样 性 质 的 有 向 图 称 为 是 强 连通 的 (strongly connected)。 如 果 一 个 有 向 图 
不 是 强 连通 的 , 但 是 它 的 基础 图 (underlying graph), 即 其 弧 上 去 掉 方向 所 形成 的 图 , 是 连通 的 ， 
那么 该 有 向 图 称 为 是 弱 连 通 的 ( weakly connected) 。 完 全 图 (complete graph ) 是 其 每 一 对 顶点 间 都 
存在 一 条 边 的 图 。 

现实 生活 中 能 够 用 图 进行 模拟 的 一 个 例子 是 航空 系统 。 每 个 机 场 是 一 个 顶点 , 在 由 两 个 项 
点 表示 的 机 场 间 如 果 存 在 一 条 直达 航线 , 那么 这 两 个 顶点 就 用 一 条 边 连 接 。 边 可 以 有 一 个 权 ， 
表示 时 间 、 距 离 或 飞行 的 费用 。 有 理由 假设 , 这 样 的 图 是 有 向 图 , 因为 在 不 同 的 方向 上 飞行 可 
能 所 用 时 间或 所 花 的 费用 会 不 同 (例如 , 依赖 于 地 方 税 ) 。 可 能 我 们 更 愿意 航空 系统 是 强 连通 
的 , 这 样 就 总 能 够 从 任 一 机 场 飞 到 另外 的 任意 一 个 机 场 。 我 们 也 可 能 愿意 迅速 确定 任意 两 个 机 
场 之 间 的 最 佳 航线 。“ 最 佳 ” 可 以 是 指 最 少 边 数 的 路 径 , 也 可 以 是 对 一 种 或 所 有 的 权重 量度 所 
算出 的 最 佳 者 。 
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交通 流 可 以 用 一 个 图 来 模型 化 。 每 一 条 街道 交叉 口 表示 一 个 顶点 , 而 每 一 条 街道 就 是 一 条 
边 。 边 的 值 可 能 代表 速度 限度 , 或 是 容量 ( 车 道 的 数目 ) 等 等 。 此 时 我 们 可 能 需要 找 出 一 条 最 短 
路 , 或 用 该 信息 找 出 交通 瓶颈 最 可 能 的 位 置 。 

在 本 章 的 其 余部 分 , 我 们 将 考查 图 论 的 几 个 更 多 的 应 用 , 这 些 图 中 有 许多 可 能 是 相当 巨大 
的 , 因此 , 我 们 使 用 的 算法 的 效率 是 非常 重要 的 。 
图 的 表示 

我 们 将 考虑 有 向 图 (无 向 图 可 类 似 表示 ) 。 

现在 假设 可 以 从 1 开始 对 顶点 编号 。 图 9-1 中 所 示 的 图 表示 7 个 顶点 和 12 条 边 。 

表示 图 的 一 种 简单 的 方法 是 使 用 一 个 二 维 数组 , 称 为 邻 
接 和 矩阵 ( adjacent matrix) 表示 法 。 对 于 每 条 边 (4u, v), WR. 
A[ wu][v] 等 于 true; BW, 数组 的 元 素 就 是 false, WRH 
有 一 个 权 , 那么 可 以 置 4[u][v] 等 于 该 权 , 而 使 用 一 个 很 大 
或 者 很 小 的 权 作为 标记 表示 不 存在 的 边 。 例 如 ,如 果 我 们 寻 
找 最 廉价 的 航空 路 线 , 那么 我 们 可 以 用 值 w 来 表示 不 存在 的 
航线 。 如 果 出 于 某 种 原因 我 们 寻找 最 昂贵 的 航空 路 线 , 那么 
可 以 用 - 20 (或 者 也 许 使 用 0) 来 表示 不 存在 的 边 。 

虽然 这 样 表示 的 优点 是 非常 简单 , 但 是 , 它 的 空间 需求 则 为 8( | V1*), 如 果 图 的 边 不 是 很 
E, 那么 这 种 表示 的 代价 就 太 大 了 。 若 图 是 稠密 ( dense) 的 ，|E| =@( |V|*), 则 邻接 矩阵 是 
合适 的 表示 方法 。 不 过 , 在 我 们 将 要 看 到 的 大 部 分 应 用 中 , 情况 并 非 如 此 。 例 如 , 设 用 图 表示 
一 个 街道 地 图 , 街道 旦 曼哈顿 式 的 方向 , 其 中 几乎 所 有 的 街道 或 者 南北 向 , 或 者 东西 向 。 因 此 ， 
任 一 路 口 大 致 都 有 四 条 街道 , 于 是 , 如 果 图 是 有 向 图 且 所 有 
的 街道 都 是 双向 的 , 则 | 已 | =4 |『| 。 如 果 有 3 000 个 路 口 ， ! 
那么 我 们 就 得 到 一 个 3 000 顶点 的 图 , 该 图 有 12000 条 边 , 它 2 
们 需要 一 个 大 小 为 9 000 000 的 数组 。 该 数组 的 大 部 分 元 素 将 
是 0。 这 直观 看 来 很 粳 ,因为 我 们 想 要 我 们 的 数据 结构 表示 `? 
那些 实际 存在 的 数据 , 而 不 是 去 表示 不 存在 的 数据 。 4 

如 果 图 不 是 稠密 的 换 句 话说 ,如果 图 是 稀疏 的 
(sparse) ， 则 更 好 的 解决 方法 是 使 用 邻接 表 ( adjacency list) 表 
示 。 对 每 一 个 顶点 ,我们 使 用 一 个 表 存 放 所 有 邻接 的 顶点 。 $ 
此 时 的 空间 需求 为 0( |E| + IVl), 它 相对 于 图 的 大 小 而 言 ” ， | 
是 线性 的 >。 这 种 抽象 表示 方法 应 该 可 以 从 图 9-2 清楚 地 看 
出 。 如 果 边 有 权 ; 那么 这 个 附加 的 信息 也 可 以 存储 在 邻接 — 图 9-2 图 的 邻接 表 表 示 法 
dep. 

邻接 表 是 表示 图 的 标准 方法 。 无 向 图 可 以 类 似 地 表示 ; ARI Qu, v) 出 现在 两 个 表 中 , 因 
此 空间 的 使 用 基本 上 是 双 倍 的 。 在 图 论 算法 中 通常 需要 找 出 与 某 个 给 定 顶 点 v 邻接 的 所 有 的 顶 
点 。 而 这 可 以 通过 简单 地 扫描 相应 的 邻接 表 来 完成 , 所 用 时 间 与 这 些 找到 的 顶点 的 个 数 成 
IE Hie 

有 几 种 方法 保留 邻接 表 。 首 先 注意 到 , 这 些 邻接 表 本 身 可 以 被 保存 在 任何 种 类 的 List, E 
ArrayList 或 LinkedList 中 。 然 而 , 对 于 非常 稀疏 的 图 , 当 使 用 ArrayList 时 程序 员 可 能 
需要 从 一 个 比 默认 容量 更 小 的 容量 开始 ArrayList; 否则 可 能 造成 明显 的 空间 浪费 。 

因为 关键 在 于 能 够 迅速 得 到 与 任 一 顶点 邻接 的 那些 顶点 的 表 , 所 以 两 个 基本 的 选择 是 , 或 
者 使 用 一 个 映射 , 在 这 个 映射 下 , 关键 字 就 是 那些 顶点 而 它们 的 值 就 是 那些 邻接 表 , 或 者 把 每 


图 9-1 一 个 有 向 图 










晶 ” 当 我 们 谈 到 线性 时 间 图 论 算法 时 , 要 求 运行 时 间 为 0( | E| + |v). 
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一 个 邻接 表 作 为 Vetex 类 的 数据 成 员 保存 起 来 。 这 第 1 个 选择 论证 要 简单 , 而 第 2 个 选择 可 能 
DER, 因为 它 避 免 了 在 映射 下 的 重复 查找 。 

在 第 2 种 情形 , 如 果 顶 点 是 一 个 String( 例 如 , 一 个 机 场 名 或 街道 路 口 名 ) , 那么 可 以 使 用 
映射 , 在 映射 下 , 关键 字 是 顶点 名 而 关键 字 的 值 则 是 一 个 Vertex, 并 且 每 一 个 Vertex 对 象 拥 
有 一 个 邻接 顶点 表 , 或 许 还 有 原始 的 String B4. 

在 本 章 的 大 部 分 情况 下 我 们 均 使 用 伪 代 码 表示 图 论 算法 。 这 么 做 将 节省 空间 ， 当然 也 使 得 
算法 的 表达 更 清晰 。 在 9. 3 TAR, 我 们 提供 一 个 例 程 实用 的 Java 实现 , 它 基 本 利用 最 短路 算 
法 以 得 到 问题 的 答案 。 

9.2 拓扑 排序 

拓扑 排序 是 对 有 向 无 圈 图 的 顶点 的 一 种 排序 , 使 得 如 果 存 在 一 条 从 v 到 vw 的 路 径 , 那么 在 

排序 中 v, 就 出 现在 wv 的 后 面 。 在 图 9-3 中 的 图 表示 迈阿密 州立 大 学 的 课程 先 修 结构 ( course 


prerequisite structure) ; H (v, w) 表明 课程 v 必须 在 课程 选修 前 修 完 。 这 些 课 程 的 拓扑 排 
序 是 不 破坏 课程 结构 要 求 的 任意 的 课程 序列 。 





图 9-3 表示 课程 先 修 结构 的 无 圈 图 


WA, 如 果 图 含有 圈 , 那么 拓扑 排序 是 不 可 能 的 , 因为 对 于 圈 上 的 两 个 顶点 v 和 w，,v 先 于 
w 同时 w 又 先 于 vz。 此 外 , 拓扑 排序 不 必 是 唯一 的 ; 任何 合理 的 排序 都 是 可 以 的 。 在 图 9-4 的 图 
中 ， Ui, Vz, Vs, Vg, V3, Vy, Ug All v, s 95, Vs, Ug, V5, 04, Ue 两 个 都 是 拓扑 排序 。 

一 个 简单 的 求 拓扑 排序 的 算法 是 先 找 出 任意 一 个 没有 
入 边 的 顶点 。 然 后 显示 出 该 顶点 , 并 将 它 及 其 边 一 起 从 图 中 
删除 。 然 后 ,我 们 对 图 的 其 余部 分 同样 应 用 这 样 的 方法 
处 理 。 

为 了 将 上 述 方法 形式 化 , 我 们 把 顶点 v 的 入 度 
(indegree) E WW (u, v) 的 条 数 。 计 算 图 中 所 有 顶点 的 入 
度 。 假 设 每 一 个 顶点 的 入 度 被 存储 且 图 被 读 人 一 个 邻接 表 
中 , 则 此 时 可 以 应 用 图 9-5 中 的 算法 生成 一 个 拓扑 排序 。 a oe 

方法 findNewvertexOfIndegreeZero 扫描 数组 , 寻找 一 个 尚未 被 分 配 拓 扑 编号 的 入 度 
为 0 的 顶点 。 如 果 这 样 的 顶点 不 存在 , 它 则 返回 null; 这 就 说 明 , 该 图 有 图。 

因为 £indNewVertexOfIndegreeZero 方法 是 对 顶点 数组 的 一 个 简单 的 顺序 扫描 , 所 以 每 次 
对 它 的 调用 都 花费 0( | 了 | ) 时 间 。 由 于 有 | 了 | 次 这 样 的 调用 , 因此 该 算法 的 运行 时 间 为 0( | V | 7). 
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void topsort( ) throws CycleFoundException 
{ 
for( int counter = 0; counter < NUM VERTICES; counter++ ) 
{ 
Vertex v = findNewVertexOfIndegreeZero( ); 
if( v == null ) 


throw new CycleFoundException( ); 
v.topNum = counter; 
for each Vertex w adjacent to v 
w.indegree--; 





图 9-5 简单 拓扑 排序 的 伪 代 码 


通过 更 仔细 地 关注 这 样 的 数据 结构 , 我 们 可 以 做 得 更 好 。 产 生 如 此 差 的 运行 时 间 的 原因 在 
POUR BA RAT. AURA AY, 那么 我 们 就 可 以 预知 , 在 每 次 迭代 期 间 只 有 少数 
顶点 的 入 度 被 更 新 。 然 而 , 虽然 只 有 一 小 部 分 发 生变 化 , 但 在 搜索 入 度 为 0 的 顶点 时 我 们 (潜在 
地 ) 查 看 了 所 有 的 顶点 。 

我 们 可 以 通过 将 所 有 (未 分 配 拓扑 编号 ) 的 入 度 为 0 的 顶点 放 在 一 个 特殊 的 盒子 中 而 消除 这 种 
无 效 的 劳动 。 此 时 £finaNewvertexOfIndegreezero 方法 返回 (并 删除 ) 的 是 该 盒子 中 的 任 一 项 
点 。 当 我 们 降低 它 的 邻接 顶点 的 人 度 时 , 检查 每 一 个 顶点 并 在 它 的 人 度 降 为 0 时 把 它 放 入 盒子 中 。 

为 实现 这 个 盒子 , 我 们 可 以 使 用 一 个 栈 或 一 个 队列 。 首 先 , 对 每 个 顶点 计算 它 的 和 人 度 。 然 
后 , 将 所 有 人 度 为 0 的 顶点 放 入 一 个 初始 为 空 的 队列 中 。 当 队列 不 空 时 , 删除 一 个 顶点 v, 并 将 
与 v 邻接 的 所 有 顶点 的 入 度 均 减 1。 只 要 一 个 顶点 的 入 度 降 为 0, 就 把 该 项 点 放 入 队列 中 。 此 
时 , 拓扑 排序 就 是 顶点 出 队 的 顺序 。 图 9-6 显示 每 一 阶段 之 后 的 状态 。 

















出 队 前 的 人 度 
顶点 1 2 3 4 5 6 7 
"i 0 0 0 0 0 0 0 
vy 1 0 0 0 0 0 0 
v. 2 1 1 1 0 0 0 
Us 3 2 1 0 0 0 0 
Us 1 1 0 0 0 0 0 
Us 3 3 3 3 2 1 0 
Vy 2 2 2 1 0 0 0 
AK vı v Us v Uy, v5 ve 
出 队 | v2 Us Va 13 v; ve 








图 9-6 对 图 9-4 中 的 图 应 用 拓扑 排序 的 结果 


这 个 算法 的 伪 代 码 实现 在 图 9-7 中 给 出 。 和 前 面 一 样 , 我 们 将 假设 图 已 经 被 读 到 一 个 邻接 
表 中 且 入 度 被 计算 并 和 顶点 一 起 被 存储 。 我 们 还 假设 每 个 顶点 有 一 个 域 , 叫 作 topNum, 其 中 
存放 的 是 拓扑 编号 。 

如 果 使 用 邻接 表 ， 那 么 执行 这 个 算法 所 用 的 时 间 为 OC E| + |VY| )。 当 认识 到 for 循环 体 
对 每 条 边 顶 多 执行 一 次 时 ， 这 个 结果 是 明显 的 。 入 度 的 计算 由 下 面 的 代码 实现 ， 同 理 可 见 此 计 
算 的 花 销 也 是 0( |E| + VI), BRERA REKK. 


for each Vertex v 
v.indegree = 0; 


for each Vertex v 
for each Vertex w adjacent to v 
w. indegreet++; 
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队列 操作 对 每 个 顶点 最 多 进行 一 次 ， 而 包括 计算 入 度 在 内 的 初始 化 各 步 花 费 的 时 间 也 和 图 
的 大 小 成 正比 。 



















void topsort( ) throws CycleFoundException 
{ 
Queue<Vertex> q = new Queue<Vertex>( ); 
int counter = 0; 


for each Vertex v 
if( v.indegree == 0 ) 
q.enqueue( v ); 


while( !q.isEmpty( ) ) 
{ 
Vertex v = q.dequeue( ); 
v.topNum = **counter; // Assign next number 


for each Vertex w adjacent to v 
if( --w.indegree == 0 ) 
q.enqueue( w ); 
} 
if( counter != NUM VERTICES ) 
throw new CycleFoundException( ); 





9-7 实施 拓扑 排序 的 伪 代 码 


9.3 最 短路 径 算 法 
这 一 节 我 们 考查 各 种 最 短路 径 问 题 。 输 入 是 一 个 赋 权 图 与 每 条 边 (v;， vw) 相 联 系 的 是 穿 


越 该 弧 的 代价 (或 称 为 值 )c;,。 一 条 路 径 Viv, *** Vy 的 值 是 Ys 419 叫 作 赋 权 路 径 长 (weighted 


path-length) 。 而 无 权 路 径 长 ( unweighted path length) 只 1 是 路 径 上 的 边 数 ， BI N-1, 

单 源 最 短路 径 问题 

给 定 一 个 赋 权 图 C = (V, E) 和 一 个 特定 顶点 * 作为 输入 , 找 出 从 s 到 6 中 每 一 个 其 他 顶点 
的 最 短 赋 权 路 径 。 

例如 , 在 图 9-8 的 图 中 , 从 ww 到 vw 的 最 短 赋 权 路 径 的 值 为 6, 它 是 从 vw 到 到 vw 再 到 vw 的 
路 径 。 在 这 两 个 顶点 间 的 最 短 无 权 路 径 长 为 2。 一 般 说 来 ， 当 不 指明 我 们 讨论 的 是 赋 权 路 径 还 
是 无 权 路 径 时 , 如 果 图 是 赋 权 的 , 那么 路 径 就 是 赋 权 的 。 还 要 注意 , 在 图 9-8 的 图 中 , Mo, $1 v, 
没有 路 径 。 








图 9-8 有 向 图 C 图 9-9 带 有 负 值 圈 的 图 
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前 面 例子 中 的 图 没有 负 值 的 边 。 图 9-9 中 的 图 指出 负 边 可 能 产生 的 问题 。 从 vs 到 的 路 
径 的 值 为 1, 但 是 , 通过 下 面 的 循环 w , vu. vu. v5, v, 存在 一 条 更 短 的 路 径 , 它 的 值 是 -5。 这 
条 路 径 仍然 不 是 最 短 的 ,因为 我 们 可 以 在 循环 中 滞留 任意 长 的 时 间 。 因 此 , 在 这 两 个 顶点 间 的 
最 短路 径 问 题 是 不 确定 的 。 类 似 地 , Mov, 到 ve 的 最 短路 径 也 是 不 确定 的 , 因为 我 们 可 以 进入 同 
样 的 循环 。 这 个 循环 叫 作 负 值 圈 ( negative-cost cycle) ; 当 它 出 现在 图 中 时 , 最 短路 径 问题 就 是 不 
确定 的 。 有 负 值 的 边 未 必 就 是 坏事 , 但 是 它们 的 出 现 似乎 使 问题 增加 了 难度 。 为 方便 起 见 , 在 
没有 负 值 圈 时 , MA s Bl s 的 最 短路 径 为 0。 

有 许多 的 例子 使 我 们 可 能 要 去 求解 最 短路 径 问 题 。 如 果 顶 点 代表 计算 机 ; 边 代表 计算 机 间 
的 链接 ; 值 表示 通信 的 费用 (每 1 000 字 节 数据 的 电话 费 ), 延迟 成 本 (传输 1000 字 节 所 需要 的 
HAO, 或 它们 与 其 他 一 些 因素 的 组 合 , 那么 我 们 可 能 利用 最 短路 问题 来 找 册 从 一 台 计 算 机 向 
一 组 其 他 计算 机 发 送 电子 新 闻 的 最 廉价 的 方法 。 

我 们 可 能 使 用 图 建立 航线 或 其 他 大 规模 运输 路 线 的 模型 并 利用 最 短路 径 算法 计算 两 点 间 的 
最 佳 路 线 。 在 这 样 的 以 及 许多 实际 的 应 用 中 , 我 们 可 能 想 要 找 出 从 一 个 顶点 s 到 男 一 个 顶点 1 
的 最 短路 径 。 当 前 , 还 不 存在 找 出 从 * 到 一 一 个 项 点 的 路 径 比 找 出 从 * 到 所 有 项 点 路 径 更 快 ( 快 得 
超出 一 个 常数 因子 ) 的 算法 。 

我 们 将 考查 求解 该 问题 4 种 形态 的 算法 。 首 先 , 考虑 无 权 最 短路 径 问 题 并 指出 如 何以 
OC|E| + | VI) 时 间 求 解 它 。 其 次 , 还 要 介绍 , 如 果 假 设 没 有 负 边 , 那么 如 何 求解 赋 权 最 短路 
径 问题 。 这 个 算法 在 使 用 合理 的 数据 结构 实现 时 的 运行 时 间 为 0( | E | log | VÍ). 

如 果 图 有 负 边 , 我 们 将 提供 一 个 简单 的 解法 , 不 过 它 的 时 间 界 不 理想 , 为 0( |E| .|V|)。 
最 后 , 我 们 将 以 线性 时 间 解 决 无 圈 图 特殊 情形 的 赋 权 问题 。 

9.3.1 无 权 最 短路 径 

图 9-10 表示 一 个 无 权 图 C。 使 用 某 个 顶点 s 作为 输入 参数 , 我 们 想 要 找 出 从 * 到 所 有 其 他 
顶点 的 最 短路 径 。 我 们 只 对 包含 在 路 径 中 的 边 数 有 兴趣 ,因此 在 边 上 不 存在 权 。 显 然 , 这 是 赋 
权 最 短路 径 问题 的 特殊 情形 ,因为 我 们 可 以 为 所 有 的 边 都 赋 以 权 1。 

暂时 假设 我 们 只 对 最 短路 径 的 长 而 不 是 具体 的 路 径 本 身 有 兴趣 。 记 录 实 际 的 路 径 只 不 过 是 
简单 的 短 记 问题 。 

设 我 们 选择 s 为 v;。 此 时 立刻 可 以 说 出 从 s 到 vw 的 最 短路 径 是 长 为 0 的 路 径 。 把 这 个 信息 
作 个 标记 , 得 到 图 9-11 的 图 。 





图 9-10 一 个 无 权 有 向 图 G 9-11 将 开始 节点 标记 为 通过 0 条 边 
可 以 到 达 的 节点 后 的 图 

现在 我 们 可 以 开始 寻找 所 有 从 s 出 发 距离 为 1 的 顶点 。 这 些 顶 点 可 以 通过 考查 与 s 邻接 的 
那些 顶点 找到 。 此 时 我 们 看 到 , mw 和 ws 从 s 出 发 只 一 边 之 和 遥 。 我 们 把 它 表 示 在 图 9-12 中 。 

现在 可 以 开始 找 出 那些 从 * 出 发 最 短路 径 恰 为 2 的 顶点 , 我 们 找 出 所 有 邻接 到 w 和 zs 的 项 
点 (距离 为 1 处 的 顶点 ) , 它们 的 最 短路 径 还 不 知道 。 这 次 搜索 告诉 我 们 , 到 和 vw 的 最 短路 径 
长 为 2。 图 9-13 显示 到 现在 为 止 已 经 做 出 的 工作 。 

最 后 , 通过 考查 那些 邻接 到 刚 被 赋值 的 v。 Alo, 的 顶点 我 们 可 以 发 现 , v 和 wi 各 有 一 条 三 
边 的 最 短路 径 。 现 在 所 有 的 项 点 都 已 经 被 计算 , 图 9-14 显示 算法 的 最 后 结果 。 
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图 9-12 REMAN s 出 发 路 径 长 为 1 图 9-13 找 出 所 有 从 s 出 发 路 径 长 为 2 
的 顶点 之 后 的 图 的 顶点 之 后 的 图 


这 种 搜索 图 的 方法 称 为 广度 优先 搜索 ( breadth- first search) 。 该 方法 按 层 处 理 顶 点 : 距 开始 
点 最 近 的 那些 顶点 首先 被 求 值 , 而 最 远 的 那些 顶点 最 后 被 求 值 。 这 很 像 对 树 的 层 序 遍 历 (level- 
order traversal ) 。 
有 了 这 种 方法 , 我 们 必须 把 它 翻译 成 代码 。 图 9-15 显示 该 算法 将 要 用 到 的 记录 其 过 程 的 表 
的 初始 配置 。 
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图 9-14 最 后 的 最 短路 径 图 9-15 用 于 无 权 最 短路 径 计算 的 表 的 初始 配置 


对 于 每 个 顶点 , 我们 将 跟踪 三 条 信息 。 首 先 , 把 从 * 开始 到 顶点 的 距离 放 到 d, 栏 中 。 开 始 
的 时 候 , BR s 外 所 有 的 顶点 都 是 不 可 达到 的 , 而 s 的 路 径 长 为 0。p, 栏 中 的 项 为 短 记 变量 , CH 
使 我 们 能 够 显示 出 实际 的 路 径 。known 中 的 项 在 顶点 被 处 理 以 后 置 为 true。 最 初 , 所 有 的 顶 
点 都 不 是 known( 已 知 ) 的 , 包括 开始 顶点 。 当 一 个 顶点 被 标记 为 known BE, 我 们 就 有 了 不 会 
再 找到 更 便宜 的 路 径 的 保证 , 因此 对 该 顶点 的 处 理 实质 上 已 经 完成 。 

,基本 的 算法 在 图 9-16 中 描述 。 图 9-16 中 的 算法 模拟 这 些 图 表 , 它 把 距离 d=0 上 的 顶点 声 
HHX known, 然后 声明 d=1 上 的 顶点 为 known, 再 声明 d=2 上 的 顶点 为 known, 等 等 , 并 且 将 仍 
然 是 d, = % 的 所 有 邻接 的 顶点 妈 置 为 距离 d, =d +1。 

通过 追溯 p, 变量 , 可 以 显示 实际 的 路 径 。 当 讨论 赋 权 的 情形 时 我 们 将 会 看 到 如 何 进 行 。 

HPAES tor 循环 , 因此 该 算法 的 运行 时 间 为 0( | 了 | )。 一 个 明显 的 低 效 之 处 在 于 ， 
尽管 所 有 的 顶点 旱 就 成 为 known T, 但 是 外 层 循环 还 是 要 继续 , 直到 NUM VERTICES -1 为 
止 。 虽然 额外 的 附加 测试 可 以 避免 这 种 情形 发 生 , 但 是 它 并 不 能 影响 最 坏 情 形 运 行 时 间 , 在 以 
点 v, 作为 起 点 的 图 9-17 中 的 图 作为 输入 时 , 通过 将 所 发 生 的 情况 一 般 化 即 可 看 到 这 一 点 。 

我 们 可 以 用 非常 类 似 于 对 拓扑 排序 所 做 的 那样 来 排除 这 种 低 效 性 。 在 任 一 时 刻 , 只 存在 两 
种 类 型 的 d, z oo 的 unknown 顶点 ,一些 顶 点 的 d, = currDist, 而 其 余 的 则 有 d,= currDist + 
1。 由 于 这 种 附加 的 结构 , 因此 搜索 整个 的 表 以 找 出 合适 的 顶点 的 做 法 是 非常 浪费 的 。 

一 种 非常 简单 但 抽象 的 解决 方案 是 保留 两 个 盒子 。1 SR HRA d, = currDist 的 那些 未 
知 顶 点 , 而 2 号 盒 则 装 有 d,=currDist «1 的 那些 顶点 。 找 出 一 个 合适 顶点 的 测试 可 以 用 查 
找 工 号 盒 内 的 任意 顶点 代替 。 在 更 新 w( 内 层 if 语句 块 的 内 部 ) 以后, 我 们 可 以 把 w 加 到 2 号 
盒 中 。 在 外 层 for 循环 终止 以 后 , 1 号 盒 是 空 的 , 而 2 号 盒 则 可 转换 成 1 号 盒 以 进行 下 一 趟 
for 循环 。 
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void unweighted( Vertex s ) 


{ 


for each Vertex v 


{ 


v.dist = INFINITY; 
v.known = false; 


} 


s.dist = 0; 


for( int currDist = 0; currDist < NUM VERTICES; currDist++ ) 


for each Vertex v 
if( !v.known && v.dist == currDist ) 
{ 
v.known = true; 
for each Vertex w adjacent to v 
if( w.dist == INFINITY ) 
{ 
w.dist = currDist + 1; 
w.path = v; 


} 





图 9-16 无 权 最 短路 径 算法 的 伪 代 码 


图 9-17 使 用 图 9-16 的 无 权 最 短路 径 算法 的 坏 情 形 


我 们 甚至 可 以 使 用 一 个 队列 把 这 种 想法 进一步 精 化 。 在 迭代 开始 的 时 候 , 队列 只 含有 距离 
为 currDist 的 那些 顶点 。 当 添加 距离 为 void unweighted( Vertex s ) 
currDist +1 的 那些 邻接 顶点 时 , 由 于 它们 自 | 
BABA, 因此 这 就 保证 它们 直到 所 有 距离 为 Queue<Vertex> q = new Queue<Vertex>( ); 
currDist 的 顶点 都 被 处 理 之 后 才 被 处 理 。 在 for each Vertex v 
距离 currDist 处 的 最 后 一 个 顶点 出 队 并 被 处 TR e EET 
理 之 后 , 队列 只 含有 距离 为 currDist «1 的 项 s.dist = 0; 
点 , 因此 该 过 程 将 不 断 进行 下 去 。 我 们 只 需要 把 -MI 4 da 
开始 的 节点 放 入 队列 中 以 启动 这 个 过 程 即 可 。 while( !q.isEmpty( ) ) 
精练 的 算法 如 图 9-18 中 所 示 。 在 伪 代 码 中 ， { 
我 们 已 经 假设 开始 顶点 * 是 作为 参数 被 传递 的 。 


Vertex v = q.dequeue( ); 


HA, 如 果 某 些 顶点 从 开始 节点 出 发 是 不 可 到 达 for each Vertex w adjacent to v 
的 , 那么 有 可 能 队列 会 过 早 地 变 空 。 在 这 种 情况 
F, 将 对 这 些 节点 报 出 INFINITY (303 ) PRBS, w.dist = v.dist + 1; 
这 是 完全 合理 的 。 最 后 ,known 域 没有 使 用 ; 一 wauth = vs 


q.enqueue( w ); 


个 顶点 一 旦 被 处 理 它 就 从 不 再 进入 队列 , 因此 它 ) 
不 需要 重新 处 理 的 事实 就 意味 着 被 做 了 标记 。 

这 样 一 来 , known 域 可 以 去 掉 。 图 9-19 指出 我 们 
一 直 在 使 用 的 图 上 的 值 在 算法 期 间 是 如 何 变化 图 9-18 无 权 最 短路 径 算法 的 伪 代 码 
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的 。( 该 图 还 包括 对 known 发 生 的 变化 ) 。 
































初始 状况 vj H AUR v UR 5 出 队 后 

v known d, P, known d, p. known d, ps known d, ps 
vi F æ 0 F 1 v3 T 1 V3 T Y »1 
[2] F oo 0 F oo 0 F 2 U F 2 Un 
Us F 0 0 T 0 0 T 0 0 T 0 0 
v4 F æ% 0 F æ 0 F 2 vU F 2 n 
Us F oo 0 F œ 0 F œ 0 F æ 0 
Vg F oo 0 F 1 v3 F 1 v5 "T 1 v3 
L7] F oo 0 F oo 0 F oo 0 F oc 0 

V3 Vi, Ug Ug, Uz, Va v, U4 

v 出 队 后 v, th Ba vs 出 队 后 v; H BAJE 

d, P. known d Pe known d, ps known d, P. 

1 Va n 1 v3 T ] Us T E: Us 

2 vi T 2 Uu T 2 U T 2 vU 

0 0 T 0 0 T 0 0 T 0 0 

2 U T 2 Dn T 2 Uu T 2 vy 

3 V2 F 3 v, T 3 vz T 3 Dy 

1 v3 T | v3 T ] v3 "T l Uy 

oo 0 F 3 V4 F 3 Va T 3 Us 
Q: V4, Us Us, U7 v, 2s 








图 9-19 无 权 最 短路 径 算 法 期 间 数 据 变化 情况 


使 用 与 对 拓扑 排序 进行 同样 的 分 析 , 我 们 看 到 ， 只 要 使 用 邻接 表 , 则 运行 时 间 就 是 
oC |E| « |v|)。 
9.3.2 Dijkstra 算法 

如 果 图 是 赋 权 图 , 那么 问题 (明显 地 ) 就 变 得 困难 了 , 不 过 我 们 仍然 可 以 使 用 来 自 无 权 情 形 
时 的 想法 。 

我 们 保留 所 有 与 前 面相 同 的 信息 。 因 此 , 每 个 顶点 或 者 标记 为 known( 已 知 ) 的 , 或 者 标记 
为 unknown( 未 知 ) 的 。 像 以 前 一 样 , 对 每 一 个 顶点 保留 一 个 尝试 性 的 距离 d,。 这 个 距离 实际 上 
是 只 使 用 一 些 known 顶点 作为 中 间 顶 点 从 s 到 vw 的 最 短路 径 的 长 。 和 以 前 一 样 , 我 们 记录 p,, E 
是 引起 d, 变化 的 最 后 的 顶点 。 

解决 单 源 最 短路 径 问 题 的 一 般 方法 叫 作 Dijkstra 算法 ( Dijkstra’ s algorithm) 。 这 个 有 30 年 
历史 的 解法 是 贪 禁 算法 ( greedy algorithm) 最 好 的 例子 。 贪 禁 算 法 一 般 分 阶段 求解 一 个 问题 , 在 
每 个 阶段 它 都 把 出 现 的 当 作 是 最 好 的 去 处 理 。 例 如 , 为 了 用 美国 货币 找 零钱 , 大 部 分 人 首先 数 
出 若干 25 分 一 个 的 硬币 阔 特 (quarter) , 然后 是 若干 一 角 币 、 五 分 币 和 一 分 币 。 这 种 贪 焚 算 法 使 
用 最 少数 目的 硬币 找 零 钱 。 贪 禁 算 法 主要 的 问题 在 于 , 该 算法 不 是 总 能 够 成 功 的 。 为 了 找 还 15 
美 分 的 零钱 , 如 添加 12 美 分 一 个 的 货币 则 可 破坏 这 种 找 零钱 算法 , 因为 此 时 它 给 出 的 答案 (一 
个 12 分 币 和 三 个 分 币 ) 不 是 最 优 的 (一 个 角 币 和 一 个 五 分 币 ) 。 

Dijkstra 算法 按 阶段 进行 , 正 像 无 权 最 短路 径 算法 一 样 。 在 每 个 阶段 ，Dijkstra 算法 选择 一 
个 顶点 v, 它 在 所 有 unknown 顶点 中 具有 最 小 的 d,, 同时 算法 声明 从 s 到 vw 的 最 短路 径 是 known 
的 。 阶 段 的 其 余部 分 由 d, 值 的 更 新 工作 组 成 。 

在 无 权 的 情形 , 若 d, =o WE d, =d, +1。 因 此 , 若 顶点 v 能 提供 一 条 更 短路 径 , 则 我 们 本 
质 上 降低 了 d, 的 值 。 如 果 我 们 对 赋 权 的 情形 应 用 同样 的 逻辑 , 那么 当 d, 的 新 值 d, +c, ,是 一 个 
改进 的 值 时 我 们 就 置 d, =d, +c,,。 简 言 之 , 使 用 通 向 w 的 路 径 上 的 顶点 "是 不 是 一 个 好 主意 由 
算法 决定 。 原 始 的 值 d, 是 不 使 用 vw 的 值 的 ; 上 面 所 算出 的 值 是 使 用 w( 和 仅仅 那些 known 的 顶 
点 ) 的 最 廉价 的 路 径 。 

图 9-20 中 的 图 是 一 个 例子 。 图 9-21 表示 初始 配置 , 假设 开始 节点 bv, 。 第 一 个 选择 的 顶 
点 是 ww， 路 径 的 长 为 0。 该 顶点 标记 为 known, BES v, 是 known 的 , 那么 某 些 表 项 就 需要 调整 。 
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邻接 到 w 的 顶点 是 这 和 vw。 这 两 个 顶点 的 项 得 到 调整 , 如 图 9-22 所 示 。 





v known 














d, Py 
UN F 0 0 
Vy F oc 0 
V3 F oo 0 
U4 F o 0 
Us F oo 0 
Ug F oo 0 
V; F oo 0 

图 9-20 有 向 图 G 图 9-21 用 于 Dijkstra 算法 的 表 的 初始 配置 
下 一 步 , 选取 vw 并 标记 为 known, Bü vy, vs, ve, o, 是 邻接 的 顶点 ,而 它们 实际 上 都 需 要 
调整 , 如 图 9-23 所 示 。 373 


接 下 来 选择 vo v, 是 邻接 的 点 , 但 已 经 是 known 的 了 , 因此 对 它 没有 工作 要 做 。 是 邻接 
的 点 但 不 做 调整 ,因为 经 过 的 值 为 2+10 =12 而 长 为 3 的 路 径 已 经 是 已 知 的 。 图 9-24 m 
这 些 顶 点 被 选取 以 后 的 表 。 








v known 















































d, Py 
0 0 
2 
1 
图 9-22 在 w 被 声明 为 known 后 的 表 9-23 HE v, 被 声明 为 known 后 
下 一 个 被 选取 的 顶点 是 v， 其 值 为 3。 是 唯一 的 邻接 顶点 , 但 是 它 不 用 调整 , 因为 3 +6 > 
5。 然 后 选取 ,对 v, 的 距离 下 调 到 3 +5 =8。 结 果 如 图 9-25 所 示 。 
v known d, P. v known d, P. 
Ui T 0 Ui T 0 0 
D An 2 vı V2 T 2 vi 
v3 F 3 Va v3 T 3 Va 
U4 T 1 vi Va T 1 "n 
Us F 3 v4 15 了 3 Va 
vs F 9 U4 ve F 8 03 
U F > V4 U7 F 5 U4 
图 9-24 TE v, 被 声明 为 known 后 图 9-25 Ev, SRR v, 被 声明 为 known 后 
再 下 一 个 选取 的 顶点 是 内 v 下 调 到 5 +1 =6。 我 们 得 到 图 9-26 所 示 的 表 。 ai 
最 后 , 我 们 选择 w。 最 后 的 表 在 图 9-27 中 表 出 。 图 9-28 以 图 形 演示 在 Dijkstra 算法 期 间 各 ? 
边 是 如 何 标记 为 known 的 以 及 顶点 是 如 何 更 新 的 。 375 
v known d, Py d, 
vU 了 0 0 0 
U2 T 2 Uu 2 
Us T 3 Va 3 
Us T | vi 1 
Us T 3 Va 3 
ve F 6 V7 6 
U 下 5 V, $ 











9-26 FE v, 被 声明 为 known 后 9-27 在 vi 被 声明 为 known 之 后 , 算法 终止 
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图 9-28 Dijkstra 算法 的 各 个 阶段 


为 了 显示 出 从 开始 顶点 到 某 个 顶点 v 的 实际 路 径 , 我 们 可 以 编写 一 个 递归 例 程 跟踪 p 变量 
留 下 的 踪迹 。 

现在 我 们 给 出 实现 Dijkstra 算法 的 伪 代 码 。 每 个 Vertex 存储 在 算法 中 使 用 的 各 种 数据 域 。 
这 在 图 9-29 中 表 出 。 


class Vertex 


{ 
public List adj; // Adjacency list 
public boolean known; 


public DistType dist; // DistType is probably int 
public Vertex path; 
.. // Other fields and methods as needed 





图 9-29 Dijkstra 算法 中 的 Vertex 类 


利用 图 9-30 中 的 递归 例 程 可 以 显示 出 这 个 路 径 。 该 例 程 递归 地 显示 路 径 上 直到 顶点 v 前 面 
的 顶点 的 整个 路 径 , 然后 再 显示 顶点 v。 这 是 没有 问题 的 , 因为 路 径 是 简单 的 。 

9-31 列 出 主要 的 算法 , 它 就 是 一 个 使 用 贪 末 选取 法 则 填 表 的 for 循环 。 

利用 反 证 法 的 证 明 将 指出 , 只 要 没有 边 的 值 为 负 , 该 算法 总 能 够 顺利 工作 。 如 果 任 何 一 边 
出 现 负 值 , 则 算法 可 能 得 出 错误 的 答案 ( 见 练习 9.7(a) ) 。 运 行 时 间 依赖 于 对 顶点 的 处 理 方法 ， 
我 们 必须 考虑 。 如 果 使 用 顺序 扫描 项 点 以 找 出 最 小 值 d, 这 种 明显 的 算法 , 那么 每 一 步 将 花费 
OC | V | ) 时 间 找 到 最 小 值 , 从 而 整个 算法 过 程 中 查找 最 小 值 将 花费 0( | V1 ) 时 间 。 每 次 更 新 
d, 的 时 间 是 常数 , 而 每 条 边 最 多 有 一 次 更 新 , 总 计 为 0( | E | )。 因 此 , 总 的 运行 时 间 为 0( |E|+ 
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|V|) 20CI VI^). WRAY. 边 数 | 已 | =@( |7| ), 则 该 算法 不 仅 简单 而 且 基 本 上 
最 优 , 因为 它 的 运行 时 间 与 边 数 呈 线 性 关系 。 


/* 

* Print shortest path to v after dijkstra has run. 
* Assume that the path exists. 

*/ 

void printPath( Vertex v ) 

{ 


if( v.path != null ) 


printPath( v.path ); 
System.out.print( " to " ); 


System.out.print( v ); 





图 9-30 显示 实际 最 短路 径 的 例 程 


void dijkstra( Vertex s ) 


{ 


for each Vertex v 
v.dist = INFINITY; 
v.known = false; 
} 
s.dist = 0; 
while( there is an unknown distance vertex ) 


Vertex v = smallest unknown distance vertex; 
v.known = true; 


for each Vertex w adjacent to v 
if( !w.known ) 
{ 


DistType cvw = cost of edge from v to w; 


if( v.dist + cvw < w.dist ) 


{ 


// Update w 
decrease( w.dist to v.dist + cvw ); 
w.path = v; 





图 9-31 Dijkstra 算法 的 伪 代 码 


如 果 图 是 稀 朴 的 , 边 数 |E| = 8( |V| ), 那么 这 种 算法 就 太 慢 了 。 在 这 种 情况 下 , 距离 需 
要 存储 在 优先 队列 中 。 有 两 种 方法 可 以 做 到 这 一 点 , 二 者 是 类 似 的 。 
顶点 v 的 选择 是 一 次 deleteMin RE, 因为 一 旦 未 知 的 最 小 值 项 点 被 找到 , 那么 它 就 不 再 
是 未 知 的 , 必须 从 未 来 的 考虑 中 除去 。w 的 距离 的 更 新 可 以 有 两 种 方法 实现 。 377] 


258 PIF 





一 种 方法 是 把 更 新 处 理 成 decreasekey 操作 。 此 时 , 查找 最 小 值 的 时 间 为 0(log | V] ), 
就 像 执行 那些 更 新 的 时 间 , 它 相 当 于 decreaseKey 操作 。 由 此 得 出 运行 时 间 为 0( |E|log|V|+ 
| V|log| V|) 20C | E | log | V |) , "E FE x irit ARE PS AY FRAY CHE. HH T UL D PR EA OG 
支持 find 操作 , Ale d, 的 每 个 值 在 优先 队列 的 位 置 将 需要 保留 并 当 d, 在 优先 队列 中 改变 时 更 
新 。 如 果 优 先 队 列 是 用 二 叉 堆 实现 的 , 那么 这 将 很 难 办 。 如 果 使 用 配对 堆 (pairing heap， 见 第 
12 3€), 则 程序 不 会 太 差 。 

另 一 种 方法 是 在 每 次 w 的 距离 变化 时 把 w 和 新 值 d, 插入 到 优先 队列 中 去 。 这 样 ,对 在 优 
先 队列 中 的 每 个 项 点 就 可 能 有 多 于 一 个 的 代表 。 当 deleteMin 操作 把 最 小 的 顶点 从 优先 队列 
中 删除 时 ， 必须 检查 以 肯定 它 不 是 known Wo WREE, WARE, 并 执行 另 一 次 
deleteMin。 这 种 方法 虽然 从 软件 的 观点 看 是 优越 的 ,而且 编 程 确实 容易 得 多 , 但 是 , 队列 的 
大 小 可 能 达到 |E | 这 么 大 。 由 于 |8|< |V| 意味 着 log | E| <2log | V|, 因此 这 并 不 影响 渐 
进 时 间 界 。 这 样 , 我 们 仍然 得 到 一 个 OC | E | log |V| ) 算 法 。 不 过 , 空间 需求 的 确 增加 了 , 在 某 
些 应 用 中 这 可 能 是 严重 的 。 不仅 如 此 ， 因 为 该 方法 需要 LE | 次 而 不 是 仅仅 |V | 次 
deleteMin, 所 以 它 在 实践 中 很 可 能 要 减 慢 。 

注意 , 对 于 一 些 诸如 计算 机 邮件 和 大 型 公交 传输 的 典型 问题 , 它们 的 图 一 般 是 非常 稀 跑 的 ， 
因为 大 多 数 顶 点 只 有 少数 几 条 边 。 因 此 , 在 许多 应 用 中 使 用 优先 队列 来 解决 这 种 问题 是 很 
重要 的 。 

如 果 使 用 不 同 的 数据 结构 , 那么 Dijkstra 算法 可 能 会 有 更 好 的 时 间 界 。 在 第 11 章 , 我 们 将 
看 到 另外 的 优先 队列 数据 结构 , MY ESE VK AB HE (Fibonacci heap) 。 使 用 这 种 数据 结构 的 运行 时 
间 是 OC |E| + | Vi log | V )。 斐 波 那 契 堆 具 有 和 良好 的 理论 时 间 界 , 不 过 , 它 需 要 相当 数量 的 
系统 开销 。 因 此 , 尚 不 清楚 在 实践 中 是 否 使 用 斐 波 那 契 堆 比 使 用 带 有 二 又 堆 的 Dijkstra 算法 更 
好 。 至 今 , 这 种 问题 尚 没有 有 意义 的 平均 情形 的 结果 。 

9.3.3 具有 负 边 值 的 图 


known 的 , 那 就 可 能 从 某 个 另外 的 unknown 顶点 v | void weightedNegative( Vertex s ) 
有 一 条 回 到 的 负 的 路 径 。 在 这 样 的 情形 下 , 选 | { 
XU, s 到 vw 再 回 到 4 的 路 径 要 比 从 s F) u ERv Queue<Vertex> q = new Queue<Vertex>( ); 


更 好 。 练 习 9.7(a) 要 求 构 造 一 个 明晰 的 例子 。 for each Vertex v 
' 一 个 诱 人 的 方案 是 将 一 个 常数 A 加 到 每 一 pee See 


条 边 的 值 上 ,如 此 除去 负 的 边 , 再 计算 新 图 的 最 s.dist = 0; 
短路 径 问题 ,然后 把 结果 用 到 原来 的 图 上 。 这 种 q.enqueue( s ); 
方案 的 直接 实现 是 行 不 通 的 , 因为 那些 具有 许多 while( !q.isEmpty( ) ) 
条 边 的 路 径 变 成 比 那些 具有 很 少 边 的 路 径 权 重 { 

更 重 了 。 


Vertex v = q.dequeue( ); 


把 赋 权 的 和 无 权 的 算法 结合 起 来 将 会 解决 这 for each Vertex w adjacent to v 
个 问题 , 但 是 要 付出 运行 时 间 剧烈 增长 的 代价 。 OSEE ced 
我 们 忘记 了 关于 unknown 的 顶点 的 概念 ， 因 为 我 // Update w 
们 的 算法 需要 能 够 改变 它 的 意向 。 开 始 , 我 们 把 AGE ee nt 
放 到 队列 中 。 然 后 , 在 每 一 阶段 让 一 个 顶点 v 出 if( w is not already in q ) 
队 。 找 出 所 有 与 v 邻接 的 顶点 w, 使 得 d, >d, + ie Md 
Co 然后 更 新 d, Fl p,, 并 在 w 不 在 队列 中 的 时 





候 把 它 放 到 队列 中 。 可 以 为 每 个 顶点 设置 一 个 比 
特 位 (bit) 以 指示 它 在 队列 中 出 现 的 情况 。 我 们 重 图 9-32 具有 负 边 值 的 赋 权 最 短路 
复 这 个 过 程 直 到 队列 空 为 止 。 图 9-32( 几乎 ) 实 径 算法 的 伪 代码 
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现 了 这 个 算法 。 

虽然 如 果 没 有 负 值 圈 该 算法 能 够 正常 运行 , 但 是 , 内 层 for 循环 中 的 代码 对 每 边 只 执行 一 
次 的 情况 不 再 成 立 。 每 个 顶点 最 多 可 以 出 队 |V | 次 , 因此 , 如 果 使 用 邻接 表 则 运行 时 间 是 
0( \E| + |V|) ( 见 练习 9.7(b) )。 这 比 Dijkstra 算法 多 很 多 , 幸运 的 是 , 实践 中 边 的 值 是 非 
负 的 。 如 果 负 值 圈 存在 , 那么 算法 正如 所 写 的 将 无 限 地 循环 下 去 。 通 过 在 任 一 顶点 已 经 出 队 
|V| +1 次 后 停止 算法 运行 , 我 们 可 以 保证 它 能 终止 。 
9.3.4 ER 

如 果 知 道 图 是 无 圈 的 , 那么 我 们 可 以 通过 改变 声明 顶点 为 known 的 顺序 , 或 者 叫 作 顶点 选 
取 法 则 , 来 改进 Dijkstra 算法 。 新 法 则 是 以 拓扑 顺序 选择 顶点 。 由 于 选择 和 更 新 可 以 在 拓扑 排 
序 执行 的 时 候 进行 , 因此 算法 能 够 一 趟 完成 。 

因为 当 一 个 顶点 v 被 选取 以 后 , 按照 拓扑 排序 的 法 则 它 没有 从 unknown 顶点 发 出 的 进入 边 ， 
因此 它 的 距离 d, 可 不 再 被 降低 , 所 以 这 种 选择 法 则 是 行 得 通 的 。 

使 用 这 种 选择 法 则 不 需要 优先 队列 ; 由 于 选择 花费 常数 时 间 因 此 运行 时 间 为 0( | E] + |V|)。 

无 圈 图 可 以 模拟 某 种 下 坡 滑 雪 问 题 一 一 我 们 想 要 从 点 a 到 点 5, 但 只 能 走 下 坡 , 显然 不 可 能 
有 圈 。 另 一 个 可 能 的 应 用 是 (不 可 逆 ) 化 学 反应 模型 。 我 们 可 以 让 每 个 顶点 代表 实验 的 一 个 特 
定 的 状态 , 让 边 代 表 从 一 种 状态 到 另 一 种 状态 的 转变 ,而 边 的 权 代表 释放 的 能 量 。 如 果 只 能 从 
高 能 状态 转变 到 低能 状态 , 那么 图 就 是 无 圈 的 。 

无 圈 图 的 一 个 更 重要 的 用 途 是 关键 路 径 分 析 法 ( critical path analysis) 。 我 们 将 用 图 9-33 中 
的 图 作为 例子 。 每 个 节点 表示 一 个 必须 执行 的 动作 以 及 完成 动作 所 花费 的 时 间 。 因 此 , 该 图 叫 
作 动 作 节 点 图 (activity-node graph)。 图 中 的 边 代表 优先 关系 ; 一 条 边 (v, w) 意味 着 动作 v 必须 
在 动作 w 开始 前 完成 。 当 然 , 这 就 意味 着 图 必须 是 无 圈 的 。 我 们 假设 任何 ( 直接 或 间接 ) 互相 不 
依赖 的 动作 可 以 由 不 同 的 服务 器 并 行 地 执行 。 





图 9-33 动作 节点 图 


这 种 类 型 的 图 可 以 (并 常常 ) 被 用 来 模拟 方案 的 构建 。 在 这 种 情况 下 , 有 几 个 重要 的 问题 需 
要 回答 。 首 先 , 方案 最 早 完成 时 间 是 何 时 ? 从 图 中 我 们 可 以 看 到 , IRERÍSA, C, F, His & 10 
个 时 间 单 位 。 另 一 个 重要 的 问题 是 确定 哪些 动作 可 以 延迟 , 延迟 多 长 ， 而 不 致 影响 最 少 完成 时 
间 。 例 如 , HERA, C, F, 中 的 任 一 个 都 将 使 完成 时 间 推 迟 10 个 时 间 单 位 。 另 一 方面 , 动作 
B 的 影响 不 重要 , 可 以 被 延迟 两 个 时 间 单 位 而 不 至 于 影响 最 后 完成 时 间 。 

为 了 进行 这 些 运算 , 我 们 把 动作 节点 图 转化 成 事件 节点 图 (event-node graph) 。 每 个 事件 对 
应 一 个 动作 和 所 有 相关 的 动作 的 完成 。 从 事件 节点 图 中 的 节点 vv 可 达到 的 事件 可 以 在 事件 v 完 
成 后 开始 。 这 个 图 可 以 自动 构造 , 也 可 以 人 工 构造 。 在 一 个 动作 依赖 于 几 个 其 他 动作 的 情况 
F, 可 能 需要 插 人 哑 边 和 哑 节 点 。 为 了 避免 引进 假 相 关 性 (或 相关 性 的 假 短缺 ) , 这 么 做 是 必要 
的 。 对 应 图 9-33 的 事件 节点 图 ， 如 图 9-34 所 示 。 
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图 9-34 事件 节点 图 


为 了 找 出 方案 的 最 早 完成 时 间 , 我 们 只 要 找 出 从 第 一 个 事件 到 最 后 一 个 事件 的 最 长 路 径 的 

长 。 对 于 一 般 的 图 , 最 长 路 径 问 题 通常 没有 意义 ,因为 可 能 有 正 值 的 圈 ( positive- cost cycle) 存 
在 。 这 些 正 值 圈 等 价 于 最 短路 问题 中 的 负 值 图 。 如 果 出 现 正 值 圈 , 那么 我 们 可 以 寻找 最 长 的 简 
单 路 径 , 不 过 , 对 于 这 个 问题 没有 已 知 的 满意 解决 方案 。 由 于 事件 节点 图 是 无 圈 图 ， 因此 我 们 
不 必 担 心 圈 的 问题 。 在 这 种 情况 下 , 容易 采纳 最 短路 径 算法 计算 图 中 所 有 节点 的 最 早 完成 时 
Ho WR EC, 是 节点 i 的 最 早 完 成 时 间 , 那么 可 用 的 法 则 为 

EC, =0 

EC, = max, (EC, +C, u) 


图 9-35 显示 在 我 们 的 例子 中 事件 节 点 图 中 每 个 事件 的 最 早 完成 时 间 。 





图 9-35 ”最 早 完成 时 间 


我 们 还 可 以 计算 每 个 事件 能 够 完成 而 又 不 影响 最 后 完成 时 间 的 最 晚 时 间 LC;。 进 行 这 项 工 
作 的 公式 为 
LC, =EC, 
LC, = min (LC, -cv) 
对 于 每 个 顶点 , 通过 保存 一 个 所 有 邻接 且 在 先 的 顶点 的 表 , 这 些 值 就 可 以 以 线性 时 间 算 出 。 借 
助 顶 点 的 拓扑 顺序 计算 它们 的 最 早 完成 时 间 , 而 最 晚 完 成 时 间 则 通过 倒转 它们 的 拓扑 顺序 来 计 
算 。 最 晚 完成 时 间 如 图 9-36 所 示 。 





图 9-36 最 晚 完 成 时 间 


事件 节点 图 中 每 条 边 的 松弛 时 间 ( slack time) 代表 对 应 动作 可 以 被 延迟 而 又 不 至 于 推迟 整 
体 的 完成 的 时 间 量 。 容 易 看 出 
Slack, = LC, - EC, -cs。 
图 9-37 指出 在 事件 节点 图 中 每 个 动作 的 松弛 时 间 ( 作 为 第 三 项 )。 对 于 每 个 节点 , 顶 上 的 


数字 是 最 早 完成 时 间 , 底下 的 数字 是 最 晚 完 成 时 间 。 
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图 9-37 最 早 完成 时 间 、 最 晚 完 成 时 间 和 松弛 时 间 


某 些 动作 的 松弛 时 间 为 零 , 这 些 动作 是 关键 性 的 动作 , 它们 必须 按 计划 结束 。 至 少 存在 一 
条 完全 由 零 -松弛 边 组 成 的 路 径 , 这 样 的 路 径 是 关键 路 径 ( critical path), 

9.3.5 所 有 点 对 最 短路 径 

有 时 重要 的 是 要 找 出 图 中 所 有 顶点 对 之 间 的 最 短路 径 。 虽 然 我 们 可 以 运行 |V | 次 适当 的 
单 源 (single-source) 算 法 , 但 是 如 果 要 立即 计算 所 有 的 信息 , 我 们 多 少 还 是 愿意 有 更 快 的 解法 ， 
尤其 是 对 于 稠密 的 图 。 | 

在 第 10 3x, 我 们 将 看 到 对 赋 权 图 求解 这 种 问题 的 一 个 0( | V | ) 算 法 。 虽 然 对 于 稠密 图 它 
具有 和 运行 |V | 次 简单 ( 非 优先 队列 ) Dijkstra 算法 相同 的 时 间 界 , 但 是 它 的 循环 是 如 此 地 紧凑 
以 致 这 种 专业 化 的 所 有 BODEN RETER 快 。 当 然 , MP RE Df 3 FF | V [x 
用 优先 队列 编写 的 Dijkstra 算法 。 

9.3.6 最 短路 径 的 例子 

本 节 我 们 编写 一 些 Java 例 程 来 计算 词 梯 ( word ladders) 游 戏 。 在 一 个 词 梯 中 , 每 个 单词 均 由 
其 前 面 的 单词 改变 一 个 字母 而 得 到 。 例 如 , 我 们 可 以 通过 一 系列 单字 母 替 换 而 将 zero 转换 成 
five; zero hero here hire fire five, 

这 是 一 个 无 权 最 短路 径 问 题 ， 其 中 每 一 个 单词 都 是 一 个 顶点 , 如 果 两 个 单词 可 以 通过 单字 
母 替 换 而 互相 转换 , 那么 它们 之 间 就 有 边 (在 两 个 方向 上 ) 。 

在 4.8 45, 我 们 描述 并 编写 了 一 个 例 程 , 该 例 程 创建 一 个 Map, 在 这 个 Map F, 关键 字 是 单 
词 , 相应 的 值 是 包含 从 一 个 单字 母 变 换 得 到 的 一 些 单词 的 表 。 同 样 ,， 这 个 Map 代表 一 个 图 , 我 
们 只 需 编 写 一 个 例 程 来 运行 单 源 最 短路 径 算 法 ,而 第 2 个 例 程 则 在 单 源 最 短路 径 算法 计算 完 后 
输出 单词 序列 。 这 两 个 例 程 均 在 图 9-38 中 写 出 。 

第 一 个 例 程 是 £indChain, CAH Map 表示 邻接 表 和 两 个 要 被 连接 的 单词 ,同时 返回 一 
个 Map, 在 该 Map 中 , 关键 字 是 单词 , 而 相应 的 值 是 位 于 从 first 开始 的 最 短 词 梯 上 的 关键 字 
前 面 的 那个 单词 。 换 句 话 说 , 在 上 面 的 例子 中 , 如 果 开 始 的 单词 是 zero, 关键 字 tive 的 值 是 
fire, KF fire 的 值 是 hire, 关键 字 hire WHE here, 等 等 。 显 然 , 这 给 第 2 THB 
getChainFromPreviousMap 提供 了 足够 的 信息 , 后 者 以 向 后 的 方式 运行 。 

findChain 是 图 9-18 中 伪 代 码 的 直接 实现 。 它 假设 first 是 合法 的 单词 ,这 是 调用 前 的 
一 个 容易 检测 的 条 件 。 基 本 循环 不 正确 地 为 first 指定 前 面 的 一 项 ( 当 邻 接 的 初始 单词 被 处 理 
HE). 因此 第 25 行将 这 一 项 进行 了 调整 。 

getChainFromPreviousMap 使 用 prev Map 和 second, 它 是 Map 中 的 一 个 关键 字 并 
返回 用 于 形成 词 梯 的 那些 单词 , 通过 prev 向 后 工作 。 通 过 使 用 LinkedList 并 在 前 头 插 入 ， 
我 们 得 到 以 正确 顺序 排列 的 词 梯 。 

能 够 把 这 个 问题 推广 到 允许 包括 删除 字母 和 添加 字母 的 单字 母 蔡 换 的 情形 。 计 算 邻 接 表 只 
需要 多 做 一 点 工作 : 在 4.8 节 最 后 的 算法 中 , 每 次 组 g 中 的 单词 w 的 代表 被 计算 时 , 我 们 均 检 
测 这 个 代表 是 否 是 组 g -1 中 的 单词 。 如 果 是 , 那么 这 个 代表 就 邻接 到 w( 它 是 一 个 单字 母 删 
除 ) ， 而 zw 被 邻接 到 该 代表 ( 它 是 一 个 单字 母 添加 ) 。 也 可 能 指定 一 个 值 到 字母 的 删除 或 插入 ( 它 
高 于 单字 母 替 换 ),， 并 产生 一 个 可 以 用 Dijkstra 算法 求解 的 赋 权 最 短路 径 问 题 。 
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1 // Runs the shortest path calculation from the adjacency map, returns a List 
2 // that contains the sequence of word changes to get from first to second. 
3 // Returns null if no sequence can be found for any reason. 
4 public static List<String> 
5 findChain( Map<String,List<String>> adjacentWords, String first, String second ) 
6 ( 
7 Map<String,String> previousWord = new HashMap<String,String>( ); 
8 LinkedList«String» q = new LinkedList<String>( ); 
9 
10 q.addLast( first ); 
11 while( !q.isEmpty( ) ) 
12 { 
13 String current = q.removeFirst( ); 
14 List<String> adj = adjacentWords.get( current ); 
15 
16 if( adj != null ) 
17 for( String adjWord : adj ) 
18 if( previousWord.get( adjWord ) == null ) 
19 { 
20 previousWord.put( adjWord, current ); 
21 q.addLast( adjWord ); 
22 } 
23 } 
24 
25 previousWord.put( first, null ); 
26 
27 return getChainFromPreviousMap( previousWord, first, second ); 
28 ] 
29 
30 // After the shortest path calculation has run, computes the List that 
3l // contains the sequence of word changes to get from first to second. 
32 // Returns null if there is no path. 
33 public static List<String> getChainFromPreviousMap( Map<String,String> prev, 
34 String first, String second ) 
35 ( 
36 LinkedList«String» result = null; 
37 
38 if( prev.get( second ) != null ) 
39 { 
40 result = new LinkedList<String>( ); 
41 for( String str = second; str != null; str = prev.get( str ) ) 
42 result.addFirst( str ); 
43 } 
dd 
45 return result; 








图 9-38 求 词 梯 的 Java 例 程 


9.4 网 络 流 问题 
设 给 定 有 向 图 6G=(V,E), 其 边 容量 为 c,,。。 这 些 容量 可 以 代表 通过 一 个 管道 的 水 的 流 
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量 或 在 两 个 交叉 路 口 之 间 马 路 上 的 交通 流量 。 有 两 个 顶点 , 一 个 是 s, 称 为 发 点 (source) ; 一 
个 是 1, 称 为 收 点 (sink) 。 对 于 任 一 条 边 (v，w) , 最 多 有 “ 流 ” 的 c, ,个 单位 可 以 通过 。 在 既 
不 是 发 点 * 又 不 是 收 点 上 的 任 一 顶点 w， 总 的 进入 的 流 必须 等 于 总 的 发 出 的 流 。 最 大 流 问题 就 
是 确定 从 * 到 1 可 以 通过 的 最 大 流量 。 例 如 , 对 于 图 9-39 中 左边 的 图 , BARES, 如 右边 的 
图 所 示 。 虽 然 这 个 例子 的 图 是 无 圈 的 ， 但 这 并 不 是 必需 的 。 我 们 的 (最 终 ) 算 法 对 有 环 图 也 
一 样 可 用 。 

正如 问题 叙述 中 所 要 求 的 , 没有 边 负载 超过 它 的 容量 的 流 。 顶 点 a 有 3 个 单位 的 流 进入 ， 
它 将 这 3 个 单位 的 流转 分 给 c 和 d。 顶 点 d Ma 和 4。 得 到 3 个 单位 的 流 , 并 把 它们 结合 起 来 发 送 
到 4。 一 个 顶点 可 以 以 它 喜 欢 的 任何 方式 结合 和 发 送 流 ,只 要 不 破坏 边 的 容量 以 及 保持 流 守 恒 
(进入 的 必然 都 流出 ) 即 可 。 

从 图 中 可 见 ，s 有 容量 为 4 和 2 的 边 离开 它 , 上 有 容量 为 3 和 3 的 边 进入 它 。 所 以 也 可 能 最 
大 流 不 是 5 而 是 6。 但 是 ， 图 9-40 展示 了 如 何 证 明 最 大 流 是 5。 我 们 把 图 切 成 两 部 分 ;一 部 分 
包括 s 和 其 他 一 些 顶 点 ， 另 一 部 分 包括 :。 由 于 流 必须 跨 过 切口 ， 所 以 所 有 在 ;分 区 且 v 在 1 
分 区 的 边 (u, v) 的 总 容量 是 最 大 流 的 一 个 上 界 。 这 些 边 是 (a,c) 和 (d，1)， 总 容量 为 5， 所 以 
最 大 流 不 可 能 超过 5。 任 何 图 都 有 很 多 的 切 分 ， 具 有 最 小 总 容量 的 切 分 给 出 最 大 流 的 上 界 ， 并 
且 事 实证 明 (但 不 是 很 明显 地 看 出 ) ， 最 小 切 分 的 容量 正好 等 于 最 大 流 。 





图 9-39 一 个 图 (左边 ) 及 其 最 大 流 9-40 对 图 G 的 一 个 切 分 将 包括 s 和 1 的 
顶点 划分 成 不 同 的 组 。 跨 过 切口 的 边 
的 总 开销 是 5， 证 明 最 大 流 是 5 
一 种 简单 的 最 大 流 算法 

解决 这 种 问题 的 首要 想法 是 分 阶段 进行 。 我 们 从 图 G 开始 并 构造 一 个 流 图 Co 6, 表示 在 
算法 的 任意 阶段 已 经 达到 的 流 。 开 始 时 C, 的 所 有 的 边 都 没有 流 , 我 们 希望 当 算法 终止 时 6 包 
含 最 大 流 。 我 们 还 构造 一 个 图 C, 称 为 残余 图 ( residual graph), 它 表 示 对 于 每 条 边 还 能 再 添加 
上 多 少 流 。 对 于 每 一 条 边 , 我 们 可 以 从 容量 中 减 去 当前 的 流 而 计算 出 残余 的 流 。C, 的 边 叫 作 残 
余 边 (residual edge) 。 

在 每 个 阶段 , 我 们 寻找 图 G, 中 从 s 到 上 的 一 条 路 径 , 这 条 路 径 叫 作 增 广 路 径 ( augmenting 
path) 。 这 条 路 径 上 的 最 小 边 值 就 是 可 以 添加 到 路 径 每 一 边 上 的 流 的 量 。 我 们 通过 调整 cr 和 重 
新 计算 C, 做 到 这 一 点 。 当 发 现在 G, 中 没有 从 s 到 上 的 路 径 时 算法 终止 。 这 个 算法 是 不 确定 的 ， 
因为 我 们 是 随便 选择 从 s 到 1 的 任意 的 路 径 。 显 然 , 有 些 选择 会 比 另 外 一 些 选择 更 好 , 后 面 我 们 
青 处 理 这 个 问题 。 我 们 将 对 我 们 的 例子 运行 这 个 算法 。 下 面 的 图 分 别 是 G6、G, 和 C,。 要 记 着 这 
个 算法 有 一 个 小 缺 欠 。 初 始 的 配置 见 图 9-41。 

在 残余 图 中 有 许多 从 * 到 1 的 路 径 。 假 设 我 们 选择 s、b5、d、t。 此 时 我 们 可 以 发 送 2 个 单 
位 的 流通 过 这 条 路 径 的 每 一 边 。 约 定 : 一 旦 注 满 ( 使 饱和 ) 一 条 边 , 则 这 条 边 就 要 从 残余 图 中 除 
去 。 这 样 , 得 到 图 9-42。 
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图 9-41 图 、 流 图 以 及 残余 图 的 初始 阶段 





图 9-42 ifs, b, d, 上 加 入 2 个 单位 的 流 后 的 C、Gr、C， 


下 面 , RTIA s. a, c t, 该 路 径 也 容许 2 个 单位 的 流通 过 。 进 行 必要 的 调整 
后 , 我 们 得 到 图 9-43 中 的 图 。 


9. 
A gc li 3 
| . wi 


图 9-43 Ws, a,c, ti 加 入 2 个 单位 的 流 后 的 C、 Gis G, 


唯一 剩 下 要 选择 的 路 径 是 s，a,，d， i, 这 条 路 径 能 够 容纳 一 个 单位 的 流通 过 。 结 果 得 
到 图 9-44 所 示 的 图 。 


o Q © 
yp cm os 
12 iss. 2: 1 3 
AUS A, {© © © 
D 


2 3 
[0] © 
图 9-44 沿 s， a, d, t 加 入 1 个 单位 的 流 后 的 G、G:、6 一 一 算法 终止 
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HIT (A s 出 发 是 不 可 到 达 的 ,因此 算法 到 此 终止 。 结 果 正好 S 个 单位 的 流 是 最 大 值 。 H pa 
了 看 清 问题 的 所 在 , 设 从 初始 图 开始 我 们 选择 路 径 s, a, d, t, 这 条 路 径 容纳 3 个 单位 的 流 因而 | ， 
好 像 是 一 种 好 的 选择 。 然 而 选择 的 结果 却 使 得 在 残余 图 中 不 再 有 从 s 到 1 的 任何 路 径 , 因此 , 我 ”1388 


们 的 算法 不 能 找到 最 优 解 。 这 是 贪 焚 算法 行 不 通 的 一 个 例子 。 图 9-45 指出 为 什么 算法 失败 。 
(s) 





图 9-45 ”如果 初 始 动作 是 沿 *，c，d,， :加 入 3 个 单位 的 流 后 得 到 
CG、Cr、6, 一 一 算法 在 多 执行 一 步 后 于 次 优 解 终止 


为 了 使 得 算法 有 效 ,我 们 需要 允许 算法 改 主意 。 为 此 ,对 于 流 图 中 具有 流 广 .的 每 _ 边 (，， 
w) ,我 们 将 在 残余 图 中 添加 一 条 容量 为 上 .的 边 {w，%) 。 效 果 就 是 , 我 们 可 以 通过 以 相反 的 广 


向 发 回 一 个 流 而 使 算法 解除 它 原来 的 决定 。 通 过 例子 最 能 看 清 这 个 问题 。 我 们 从 原始 的 图 开始 
HAFIN Ks, a, d, t, 得 到 图 9-46 中 的 图 。 


图 9-46 (ERERKEN s, a, d, t 加 入 3 个 单位 的 流 后 的 图 


注意 , 在 残余 图 中 有 些 边 在 和 d 之 间 有 两 个 方向 。 或 者 还 有 一 个 单位 的 流 可 以 从 a 到 d 
导向 , 或 者 有 高 达 3 个 单位 的 流 导向 相反 的 方向 一 一 我 们 可 以 撤销 流 。 现 在 算法 找到 流 为 2 的 
90 





增 广 路 径 s, b, d, a, c, t, 通过 从 d 到 a 导 人 2 个 单位 的 流 , 算法 从 边 (a, d) 取 走 2 个 单位 
的 流 , 因此 本 质 上 改变 了 它 的 原意 。 图 9-47 显示 出 新 的 图 。 


A 





图 9-47 使 用 正确 算法 沿 s，b，d，a,，c, it 加 入 2 个 单位 的 流 后 的 图 


在 这 个 图 中 没有 增 广 路 径 ， 因 此 算法 终止 。 注 意 ， 如 果 在 图 9-46 中 选择 增 广 路 径 *，o%， 
c, t MRI 个 单位 的 流 ， 也 能 得 到 同样 的 结果 ， 因 为 那样 就 还 能 找到 一 条 后 续 的 增 广 路 径 。 

容易 看 到 ， 如 果 算 法 终止 ， 它 必然 终止 于 一 个 最 大 流 。 终 止 意味 着 在 残余 图 里 从 * 到 上 BE 
有 路 径 了 。 于 是 切 分 残余 图 ,将 从 * 可 达 的 顶点 放 在 一 边 ， 并 且 将 不 可 达 的 顶点 (包括 t) CTE 
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男 一 边 。 图 9-48 展示 了 这 个 切 分 。 显 然 原始 图 6 中 的 任何 跨越 切口 的 边 都 必须 是 饱满 的 ， 否 
则 其 中 一 条 边 就 会 有 残余 的 流 ， 则 意味 着 在 G, 里 有 一 条 跨越 切口 (在 错误 的 、 不 允许 的 方向 ) 
的 边 。 由 于 在 G, 里 不 存在 从 * 这 一 边 到 : 那 一 边 的 跨越 切口 的 边 ， 所 以 也 就 不 存在 跨越 切口 的 
反 向 流 。 但 是 那 意味 着 C 里 面 的 流 正 好 等 于 C 的 切 分 的 容量 ， 所 以 我 们 得 到 一 个 最 大 流 。 

如 果 图 中 边 的 开销 都 是 整数 ， 则 算法 必须 终止 。 每 次 增长 加 1 个 单位 的 流 ， 所 以 我 们 终 将 
达到 最 大 流 ， 虽 然 这 并 不 保证 有 很 高 的 效率 。 特 别 是 ， 如 果 容 量 都 是 整数 上 且 最 大 流 为 /， 那 么 ， 
由 于 每 条 增 广 路 径 使 流 的 值 至 少 增 1， 故 了 个 阶段 足够 ， 从 而 总 的 运行 时 间 为 OA， EL), A 
为 通过 无 权 最 短路 径 算法 一 条 增 广 路 径 可 以 以 0( | E | ) 时 间 找 到 。 说 明 为 什么 这 个 时 间 是 坏 
的 运行 时 间 的 经 典 例子 如 图 9-49 所 示 。 


(5). 
1000000 AU 1000000 
l c 一 、 
A) 


1000000 1000000 一 一 

X 

Ed 9-48 ”在 残余 图 中 从 可 达 的 顶点 组 成 了 切 分 的 一 边 ， 图 9-49 经 典 的 坏 的 增长 情形 
不 可 达 的 顶点 组 成 了 切 分 的 另 一 边 

最 大 流通 过 沿 每 条 边 发 送 1 000 000 并 查验 到 2 000 000 而 得 到 。 随机 的 增长 可 以 沿 包 含 由 a 
All b 连接 的 边 的 路 径 连 续 增长 。 要 是 这 种 情况 重复 发 生 , 那 就 需要 2 000 000 次 增长 ， 而 本 来 我 
们 仅 用 两 次 就 可 以 了 。 

避免 这 个 问题 的 简单 方法 是 总 选择 容许 在 流 中 最 大 增长 的 增 广 路 径 。 寻 找 这 样 一 条 路 径 类 
似 于 求解 一 个 赋 权 最 短路 径 问 题 ， 而 对 Dijkstra 算法 只 需要 一 行 的 修改 就 可 以 完成 这 项 工作 。 
如 果 capw 为 最 大 边 容 量 , 那么 可 以 证 明 , OC | E | log cap,, ) 次 增长 将 足以 找到 最 大 流 。 在 这 种 
情况 下 , 由 于 对 于 增 广 路 径 的 每 一 次 计算 都 需要 0( | 已 | log | V|) etH, 因此 总 的 时 间 界 
为 0( | E | log | V | log cap...) 。 如 果 容 量 均 为 小 整数 , 则 该 界 可 以 减 为 0( | E | log] V 1). 

另 一 种 选择 增 广 路 径 的 方法 是 总 选取 具有 最 少 边 数 的 路 径 ， 有 理由 期 望 ， 通 过 以 这 种 方式 
选择 路 径 不 太 可 能 使 该 路 径 上 出 现 一 条 小 的 、 限 制 了 流 的 边 。 使 用 这 种 法 则 ， 每 一 步 增长 在 残 
余 图 中 计算 从 s 到 1 的 无 权 最 短路 ， 于 是 假设 图 中 每 个 项 点 保持 d, ， 即 残余 图 中 从 ; 到 vw 的 最 短 
距离 。 每 一 步 的 增长 可 以 向 残余 图 中 加 入 新 的 边 , 但 很 明显 没有 d, 可 以 被 减 小 ， 因 为 边 被 加 
在 与 已 有 最 短路 相反 的 方向 。 

每 一 步 的 增长 至 少 令 一 条 边 饱 和 。 设 边 (u, v) 是 饱和 的 ; 在 这 一 点 上 , 有 距离 d,, vfi 
距离 d, 2d, +1; 然后 (4, v) 被 从 残余 图 中 删除 ， 而 边 (v, 4) 被 加 上 。(w, v) 不 能 再 次 在 残余 
图 中 出 现 了 ， 除 非 并 且 直 到 (>，z) 在 未 来 的 某 次 增 广 路 径 中 出 现 。 但 如 果 这 样 ， 则 在 这 点 上 到 
u 的 距离 一 定 是 d, +1， 那 就 比 (w，v) 上 次 被 删除 的 时 候 多 了 2。 

这 意味 着 每 次 (uw, vv) 再 次 出 现时 ,4 的 距离 会 增加 2。 这 意味 着 任何 边 最 多 只 能 重复 出 现 
1V|/2 次 。 每 次 增长 导致 一 些 边 重新 出 现 ， 所 以 增长 的 次 数 是 0( | EV|)。 因 为 要 做 无 权 
最 短路 径 计 算 ， 每 一 步 花费 0( |E | ) 时 间 ， 则 得 到 运行 时 间 界 0( | 巨 | Ivi». 

有 可 能 对 这 一 算法 进行 进一步 的 数据 结构 改进 , 存在 几 个 更 加 复杂 的 算法 。 长 期 以 来 对 界 
的 改进 降低 了 该 问题 当前 熟知 的 界 。 虽 然 尚 未 见 到 0( | E | V | ) 算 法 的 报告 , 但 是 一 些 具 有 界 
OC |E|VllogC |V| ZE] )) MOCIEIV| + |V|*) 的 算法 已 经 被 发 现 ( 见 参考 文献 )。 
还 有 许多 在 一 些 特殊 情形 下 非常 好 的 界 。 例 如 , 若 图 除 发 点 和 收 点 外 所 有 的 顶点 都 有 一 条 容量 
为 1 的 入 边 或 一 条 容量 为 1 的 出 边 , 则 该 图 的 最 大 流 可 以 以 时 间 OC | E LV] 7) 找到 。 这 些 图 
出 现在 许多 应 用 中 。 
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产生 这 些 界 的 那些 分 析 过 程 是 相当 复杂 的 , 并 且 还 不 清楚 最 坏 情形 的 结果 是 如 何 与 实际 当中 
用 到 的 运行 时 间 发 生 关系 的 。 一 个 相关 的 、 甚 至 更 困难 的 问题 是 最 小 费用 流 ( min- cost flow ) 问题 。 
每 条 边 不 仅 有 容量 , 而 且 还 有 每 个 单位 流 的 费用 ， RET 
用 的 流 来 。 目 前 对 这 两 个 问题 的 研究 都 在 积极 地 进行 


9.5 最 小 生成 树 


我 们 将 要 考虑 的 下 一 个 问题 是 在 一 个 无 向 图 中 找 出 一 棵 最 
小 生成 树 ( minimum spanning tree) 的 问题 。 这 个 问题 对 有 向 图 也 
是 有 意义 的 , 不 过 找 起 来 更 困难 。 大 体 上 说 来 , 一 个 无 向 图 c 
的 最 小 生成 树 就 是 由 该 图 的 那些 连接 G 的 所 有 顶点 的 边 构 成 的 
树 , 且 其 总 价值 最 低 。 最 小 生成 树 存在 当 且 仅 当 C 是 连通 的 。 
虽然 一 个 强壮 的 算法 应 该 指出 6 不 连通 的 情况 , 但 是 我 们 还 是 
假设 6 是 连通 的 , 而 把 算法 的 健壮 性 作为 练习 留 给 读者 。 

在 图 9-50 中 第 二 个 图 是 第 一 个 图 的 最 小 生成 树 ( 碰巧 还 是 唯一 
的 , 但 这 并 不 代表 一 般 情 况 ) 。 注 意 , 在 最 小 生成 树 中 边 的 条 数 为 
|V| =-1。 最 小 生成 树 是 一 棵 树 ， 因 为 它 无 圈 ; 而 由 于 最 小 生成 树 
包含 每 一 个 顶点 , 因此 它 是 生成 树 ; 此 外 , 它 显然 是 包含 图 的 所 有 顶点 的 最 小 的 树 。 如 果 我 们 需要 用 
最 少 的 电线 给 一 所 房子 安装 电路 (假设 没有 其 他 的 电路 约束 ) , 那 就 需要 解决 最 小 生成 树 问题 。 

对 于 任 一 生成 树 T, 如 果 将 一 条 不 属于 了 的 边 e 添加 进来 , 则 产生 一 个 圈 。 如 果 从 该 圈 中 除 
去 任意 一 条 边 , 则 又 恢复 生成 树 的 特性 。 如 果 边 。 的 值 比 除去 的 边 的 值 低 , 那么 新 的 生成 树 的 
值 就 比 原生 成 树 的 值 低 。 如 果 在 建立 生成 树 时 所 添加 的 边 在 所 有 避免 成 圈 的 边 中 其 值 最 小 , 那 
么 最 后 得 到 的 生成 树 的 值 不 能 再 改进 , 因为 任意 一 条 替代 的 边 都 将 与 已 经 存在 于 该 生成 树 中 的 
一 条 边 至 少 具 有 相同 的 值 。 这 说 明 ; 对 于 最 小 生成 树 , 贪 禁 的 做 法 是 成 立 的 。 我 们 介绍 两 种 算 
法 , 它们 的 区 别 在 于 最 小 ( 值 的 ) 边 如 何 选取 上 。 
9.5.1 Prim 算法 

计算 最 小 生成 树 的 一 种 方法 是 使 其 连续 地 一 步 步 长 成 。: 在 每 一 步 , 都 要 把 一 个 节点 当 作 根 
并 往 上 加 边 , 这 样 也 就 把 相关 联 的 顶点 加 到 增长 中 的 树 上 。 

在 算法 的 任 一 时 刻 , 我 们 都 可 以 看 到 一 组 已 经 添加 到 树 上 的 顶点 , 而 其 余 顶 点 尚未 加 到 这 
棵 树 中 。 此 时 , 算法 在 每 一 阶段 都 可 以 通过 选择 边 (w,，v) 使 得 (u,v) 的 值 是 所 有 在 树 上 但 wv 
不 在 树 上 的 边 的 值 中 的 最 小 者 而 找 出 一 个 新 的 顶点 并 把 它 添 加 到 这 棵 树 中 。 图 9-51 指出 该 算 
AMM v, 开始 构建 最 小 生成 树 。 开 始 时 , v, 在 构建 中 的 树 上 , 它 作为 树 的 根 但 是 没有 边 。 每 

步 添加 一 条 边 和 一 个 顶点 到 树 上 。 
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图 9-50 图 G 及 其 最 小 生成 树 





图 9-51 在 每 一 步 之 后 的 Prim 算法 
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我 们 可 以 看 到 , Prim 算法 基本 上 和 求 最 短路 径 的 Dijkstra 算法 相同 , 因此 和 前 面 一 样 , 我 们 
对 每 一 个 顶点 保留 值 d, M p, 以 及 一 个 指标 , 标示 该 顶点 是 known( 已 知 ) 的 还 是 unknown( A 
知 ) 的 。 这 里 , d, 是 连接 v 到 已 知 顶 点 的 最 短 边 的 权 , 而 p, 则 是 导致 d, 改变 的 最 后 的 顶点 。 算 
法 的 其 余部 分 完全 一 样 ， 只 有 一 点 不 同 : 由 于 d, 的 定义 不 同 , 因此 它 的 更 新 法 则 也 不 同 。 对 于 
这 个 问题 , 更 新 法 则 比 以 前 更 简单 : 在 每 一 个 顶点 v 被 选取 以 后 , 对 于 每 一 个 与 v 邻接 的 未 知 的 
w, d, -min(d,, c,.,)o 

表 的 初始 状态 由 图 9-52 指出 。w 被 选取 , v, v. v, 被 更 新 。 结 果 由 图 9-53 中 的 表 指出 。 
下 一 个 顶点 选取 vw, 每 一 个 顶点 都 与 w 邻接 。w 不 考虑 , 因为 它 是 已 知 的 。 AE, 因为 d, =2 
MAM v, 到 vw, 的 边 的 值 是 3; 所 有 其 他 的 顶点 都 被 更 新 。 图 9-54 显示 得 到 的 结果 。 下 一 个 要 选 
取 的 顶点 是 这 。 这 并 不 影响 任何 距离 。 然 后 选取 wm, 它 影 响 到 w 的 距离 , 见 图 9-55. eM v, 得 
到 图 9-56, v, 的 选取 迫使 wx 和 ws 进行 调整 。 然 后 分 别 选 取 w 和 ws, 算法 完成 。 
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9-53 Ev, 声明 为 known 后 的 表 
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Kd 9-54 在 声明 为 known 后 的 表 图 9-55 在 和 vw 先后 声明 为 known 后 的 表 


最 后 的 表 在 图 9-57 中 给 出 。 生成 树 的 边 可 以 从 该 表 中 读 出 : (n, Dis Cfi d), (9.5 
v); (955 Wy) (9$, DJa (vs th) 's 生成 树 总 的 值 是 16。 























known d, v known d, P, 
0 a vi a 0 0 

—2 vz T 2 vi 

2 Us T 2 v4 

1 V4 T l vi 

6 Us T 6 D 

1 ve T 1 vy 

4 v T 4 Va 

图 9-56 Ev, 声明 为 known 后 的 表 图 9-57 在 x Fl v, 选取 后 的 表 (Prim 算法 终止 ) 


该 算法 整个 的 实现 实际 上 和 Dijkstra 算法 的 实现 是 一 样 的 , 对 于 Dijkstra 算法 分 析 所 做 的 每 
一 件 事 都 可 以 用 到 这 里 。 不 过 要 注意 , Prim 算法 是 在 无 向 图 上 运行 的 , 因此 当 编 写 代码 时 要 记 
住 把 每 一 条 边 都 要 放 到 两 个 邻接 表 中 。 不 用 堆 时 的 运行 时 间 为 0( | 了 | ), 它 对 于 稠密 的 图 来 
说 是 最 优 的 。 使 用 二 又 堆 的 运行 时 间 是 0( | E | log | V |) ,对 于 稀 朴 的 图 它 是 一 个 好 的 界 。 
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9.5.2 Kruskal 算法 

第 二 种 贪 禁 策略 是 连续 地 按照 最 小 的 权 选 择 边 , 并 且 当 所 选 的 边 不 产生 圈 时 就 把 它 作为 所 取 定 
的 边 。 该 算法 对 于 前 面 例子 中 的 图 的 实施 过 程 如 图 9- 58 
所 示 。 

形式 上 ，Kruskal 算法 是 在 处 理 一 个 森林 一 一 树 的 集 
合 。 开 始 的 时 候 , 存在 | V | 棵 单 节点 树 , 而 添加 一 边 则 
将 两 棵 树 合并 成 一 棵 树 。 当 算法 终止 的 时 候 , 就 只 有 一 
棵 树 了 ,这 棵 树 就 是 最 小 生成 树 。 图 9-59 显示 边 被 添加 
到 森林 中 的 顺序 。 

当 添加 到 森林 中 的 边 足够 多 时 算法 终止 。 实 际 上 ， 
算法 就 是 要 决定 边 (w, v) 应 该 添加 还 是 应 该 放弃 。 第 8 
章 中 的 Union/Find 算法 适用 于 这 里 的 数据 结构 。 图 9-58 Kruskal 算法 施 于 图 6 的 情况 

我 们 用 到 的 一 个 恒定 的 事实 是 , 在 算法 实施 的 任 一 时 刻 , 两 个 顶点 属于 同一 个 集合 当 且 仅 
当 它 们 在 当前 的 生成 森林 ( spanning forest) 中 连通 。 因 此 , 每 个 顶点 最 初 是 在 它 自己 的 集合 中 。 |397 
WME u Alo 在 同一 个 集合 中 , 那么 连接 它们 的 边 就 要 放弃 , 由 于 他 们 已 经 连通 了 , 因此 再 添加 边 
(u,v) 就 会 形成 一 个 圈 。 如 果 这 两 个 顶点 不 在 同一 个 集合 中 , 则 将 该 边 加 入 , FEMA US u 
Lv 的 这 两 个 集合 实施 一 次 union, AHAB, 这样 将 保持 集合 不 变性 , EDI BR Qu, v) HS 
———— eee 因此 属于 相同 的 集合 。 
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图 9-59 在 每 一 步 之 后 的 Kruskal 算法 


固然 , 将 边 排序 可 便于 选取 , 不 过 , 用 线性 时 间 建 立 一 个 堆 则 是 更 好 的 想法 。 此 时 ， 
DeleteMin 将 使 得 边 依 序 得 到 测试 。 典 型 情况 下 , 在 算法 终止 前 只 有 一 小 部 分 边 需 要 测试 , JS 
管 必 须 尝试 所 有 的 边 的 情况 总 是 有 可 能 的 。 例 如 , 假设 还 有 一 个 顶点 v 以 及 值 为 100 6933 (vs, 
v), 那么 所 有 的 边 就 会 都 被 考察 到 。 图 9-60 中 的 Kruskal 方法 可 以 找 出 一 棵 最 小 生成 树 。 
ArrayList<Edge> kruskal( List<Edge> edges, int numVertices ) 


{ 


DisjSets ds = new DisjSets( numVertices ); 


PriorityQueue<Edge> pq = new PriorityQueue<>( edges ); 
List<Edge> mst = new ArrayList<>( ); 





while( mst.size( ) != numVertices - 1 ) 


9-60 Kruskal 算法 的 伪 代 码 
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Edge e = pq.deleteMin( ); // Edge e = (u, v) 
SetType uset = ds.find( e.getu( ) ); 
SetType vset = ds.find( e.getv( ) ); 


if( uset != vset ) 


{ 


// Accept the edge 
mst.add( e ); 
ds.union( uset, vset ); 


) 
) 


return mst; 





图 9-60 (4) 


该 算法 的 最 坏 情形 运行 时 间 为 0( | E log | E], 它 受 堆 操作 控制 。 注 意 , 由 于 | 无 | = 
OC |V1”), 因此 这 个 运行 时 间 实 际 上 是 0( | E | log | 了 | ) 。 在 实践 中 , 该 算法 要 比 这 个 时 间 界 
指示 的 时 间 快 得 多 。 


9.6 深度 优先 搜索 的 应 用 


深度 优先 搜索 (depth-first search ) 是 对 先 序 遍历 ( preorder traversal ) 的 推广 。 我 们 从 某 个 顶点 
v 开始 处 理 v, 然后 递归 地 遍历 所 有 与 v 邻接 的 顶点 。 如 果 这 种 过 程 是 对 一 棵 树 进行 , 那么 , 由 
于 |E| secivio, 因此 该 树 的 所 有 的 顶点 在 总 时 间 OC | E | ) 内 都 将 被 系统 地 访问 到 。 如 果 
我 们 对 任意 的 图 进行 该 过 程 , 那么 我 们 需要 小 心 仔细 以 避免 圈 的 出 现 。 为 此 , 当 访 问 一 个 项 点， 
的 时 候 , 由 于 我 们 当时 已 经 到 了 该 点 处 , 因此 可 以 标记 该 点 是 访问 过 的 , 并 且 对 于 尚未 被 标记 
的 所 有 邻接 顶点 递归 调用 深度 优先 搜索 。 我 们 假设 , 对 于 无 向 图 , 每 条 边 ("，w ) 在 邻接 表 中 出 
现 两 次 : 一 次 是 (v, w), 另 一 次 是 (ww，z) 。 图 9-61 中 的 过 程 执行 一 次 深度 优先 搜索 ( 此 外 绝对 
什么 也 不 做 ) ,从 而 是 一 个 一 般 风格 的 模板 。 

对 每 一 个 顶点 , 域 Visited 初始 化 成 false。 通 过 只 对 那些 尚未 被 访问 的 节点 递归 调用 
该 过 程 , 我 们 保证 不 会 陷入 无 限 的 循环 。 如 果 图 是 无 向 的 且 不 连通 的 , 或 是 有 向 的 但 非 强 连通 
的 , 这 种 方法 可 能 会 访问 不 到 某 些 节 点 。 此 时 , 我 们 搜索 一 个 未 被 标记 的 节点 , 然后 应 用 深度 
优先 遍历 , 并 继续 这 个 过 程 直到 不 存在 未 标记 的 节点 为 止 ?。 因 为 该 方法 保证 每 一 条 边 只 访问 
一 次 , 所 以 只 要 使 用 邻接 表 , 则 执行 遍历 的 总 时 间 就 是 0O( | E] + | V1). 
9.6.1 无 向 图 i 

无 向 图 是 连通 的 ,， 当 且 仅 当 从 任 一 节点 开始 的 深度 优先 搜索 访问 到 每 一 个 节点 。 因 为 这 项 
测试 应 用 起 来 非常 容易 , 所 以 将 假设 我 们 处 理 的 图 都 是 连通 的 。 如 果 它 们 不 连通 , 那么 可 以 找 
出 所 有 的 连通 分 支 并 将 我 们 的 算法 依次 应 用 于 每 个 分 支 。 

作为 深度 优先 搜索 的 一 个 例子 , 设 在 图 9-62 的 图 中 从 A 点 开始 。 此 时 , 标记 4 为 访问 过 的 
并 递归 调用 dfs(B)。dfs(B) 标 记 B 为 访问 过 的 并 递归 调用 afs(Cc)。dfs(C) 标 记 C 为 访问 
过 的 并 递归 调用 dis(D), dfs(D) MF) A AB, 但 是 这 两 个 节点 都 已 经 被 标记 过 , 因此 没有 递 
归 调 用 可 以 进行 。dfs(D) 也 看 到 C 是 邻接 的 顶点 , 但 C 也 标记 过 了 , 因此 在 这 里 也 没有 递归 





四 ”其 实现 的 一 种 高 效 方法 是 从 v, 开始 深度 优先 搜索 。 如 果 我 们 需要 重新 开始 深度 优先 搜索 , 则 对 于 一 个 未 标 
记 的 顶点 考查 序列 六 ，w ,1,…, 其 中 v1 是 最 后 一 次 深度 优先 搜索 开始 处 的 顶点 。 这 保证 整个 算法 只 花费 
OC | V | ) 时 间 查 找 那些 使 新 的 深度 优先 搜索 树 开 始 的 顶点 。 
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调用 进行 , 于 是 Gfs(D) 返 回 到 dfs(C)。dfs(C) 看 到 B 是 邻接 点 , 忽略 它 , 并 发 现 以 前 没 看 

见 的 顶点 也 是 邻接 点 , 因此 调用 dfs(E)。dfs(E) 将 E 作 标记 , ARAR C, 并 返回 到 dfs 

(C)。dfs(C) 返 回 到 dfs(B)。dfs(B) 忽 略 4 和 D 并 返回 。dfs(A) 忽 略 D 和 上 且 返回 。( 我 

们 实际 上 已 经 接触 每 条 边 两 次 , 一 次 是 作为 边 (v,w), 再 一 次 是 作为 边 (w， v), 但 这 实际 上 是 

每 个 邻接 表 项 接触 一 次 。) 
void dfs( Vertex v ) 
{ 


v.visited = true; 
for each Vertex w adjacent to v 


if( !w.visited ) 
dfs( w ); 





图 9-61 深度 优先 搜索 模板 ( 伪 代 码 ) 图 9-62 一 个 无 向 图 


我 们 用 深度 优先 生成 树 ( depth-first spanning tree) 以 图 形 方式 来 描述 上 面 的 步 又。 该 树 的 根 
EA, 是 第 一 个 被 访问 到 的 项 点。 图 中 的 每 一 条 边 (v, w) 都 出 现在 树 上 。 如 果 当 我 们 处 理 (w， 
w) 时 发 现 w 是 未 被 标记 的 , 或 当 处 理 (w， wv) 时 发 现 v 是 未 标记 的 , 那么 我 们 就 用 树 的 一 条 边 来 
表示 它 。 如 果 当 处 理 (v, w) 时 发 现 w 已 被 标记 , 并 且 当 处 理 (w，z) 时 发 现 v 已 有 标记 , 那么 我 
们 就 画 一 条 虚线 , 并 称 之 为 背 向 边 (back edge), 表示 这 条 “ 边 ”实际 上 不 是 树 的 一 部 分 。 图 9-62 
中 的 图 的 深度 优先 搜索 在 图 9-63 中 表 出 。 

树 将 模拟 我 们 执行 的 遍历 。 只 使 用 树 的 边 对 该 树 的 先 序 编号 ( preorder numbering) 告诉 我 们 
这 些 顶 点 被 标记 的 顺序 。 如 果 图 不 是 连通 的 , 那么 处 理 所 有 的 节点 (和 边 ) 则 需要 多 次 调用 
dfs, 每 次 都 生成 一 棵 树 , STR ER RE (dept first spanning forest) 。 

9.6.2 双 连 通 性 

一 个 连通 的 无 向 图 如 果 不 存在 被 删除 之 后 使 得 剩 下 的 图 不 再 连通 的 顶点 , 那么 这 样 的 无 向 
连通 图 就 称 为 是 双 连 通 ( biconnected ) 的 。 上 例 中 的 图 是 双 连 通 的 。 如 果 例 中 的 节点 是 计算 机 ， 
边 是 链 路 , 那么 , 若 有 任 一 台 计算 机 出 故障 而 不 能 运行 , 则 网 络 邮 件 不 受 影响 , 当然, 与 这 人 台 坏 
计算 机 有 关 的 邮件 除外 。 类 似 地 , 如 果 一 个 公共 运输 系统 是 双 连 通 的 , 那么 , 若 某 个 站 点 被 破 
W, 则 用 户 总 可 选择 另外 的 旅行 路 径 。 

如 果 一 个 图 不 是 双 连 通 的 , 那么 , 将 其 删除 使 图 不 再 连通 的 那些 顶点 叫 作 荐 点 (articulation 
point) 。 这 些 节 点 在 许多 应 用 中 是 很 重要 的 。 图 9-64 中 的 图 不 是 双 连 通 的 : 顶点 C 和 D 都 是 制 
点 。 删 除 项 点 DD 使 图 6 不 连通 , 而 删除 项 点 D 则 使 E 和 从 图 G 的 其 余部 分 断 离 。 





图 9-63 图 9-62 的 深度 优先 搜索 图 9-64 HAHA CAD NA 


TARE OL FCA R Vie Dc Bp PG UB io PEE H PORC A EY TIE, 从 图 中 任 一 顶点 
开始 ,执行 深度 优先 搜索 并 在 顶点 被 访问 时 给 它们 编号 。 对 于 每 一 个 顶点 " 我们 称 其 先 序 编号 
为 Num(v)。 然 后 , 对 于 深度 优先 搜索 生成 树 上 的 每 一 个 顶点 v, 计算 编号 最 低 的 项 点 , 我 们 称 
之 为 Low(v) ,该 点 可 从 v 开 始 通 过 树 的 零 条 或 多 条 边 且 可 能 还 有 一 条 背 向 边 而 ( 以 该 序 ) 达 到 。 
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图 9-65 中 的 深度 优先 搜索 树 首先 指出 先 序 编号 , 然后 指出 在 上 述 法 则 下 可 达到 的 最 低 编 号 
顶点 。 

通过 4、B 和 C 可 达到 的 最 低 编号 顶 
点 为 顶点 1(4), 因为 它们 都 能 够 通过 树 
的 边 到 D, 然后 再 由 一 条 背 向 边 回 到 A, 
我 们 可 以 通过 对 该 深度 优先 生成 树 执行 
一 次 后 序 遍 历 有 效 地 算出 Low。 根 据 Low 
的 定义 可 知 Low(v) Ji 

1. Num(v) 

2. 所 有 背 向 边 (v, w) 中 的 最 低 Num(w) 

3. 树 的 所 有 边 (v, w) 中 的 最 低 Low(w) 
中 的 最 小 者 。 

第 一 个 条 件 是 不 选取 边 , 第 二 种 方 
法 是 不 选取 树 的 边 而 是 选取 一 条 背 向 边 ， 
第 三 种 方法 则 是 选择 树 的 某 些 边 以 及 可 
能 还 有 一 条 背 向 边 。 第 三 种 方法 可 用 一 图 9-65 上 图 的 深度 优先 树 ， 节 点 标 有 Num 和 Low 
个 递归 调用 简明 地 描述 。 由 于 我 们 需要 对 v 的 所 有 儿子 计算 出 Low 值 后 才能 计算 Low(v) , 因此 
这 是 一 个 后 序 遍 历 。 对 于 任 一 条 边 (w w), 只 要 检查 Num(v) 和 Num(w) 就 可 以 知道 它 是 树 的 
一 条 边 还 是 一 条 背 向 边 。 因 此 ，Zow() 容易 计算 。 我 们 只 需 扫 描 * 的 邻接 表 , 应 用 适当 的 法 则 ， 
并 记 住 最 小 者 。 所 有 的 计算 花费 0( | E | + |V|) 时 间 。 

剩 下 要 做 的 就 是 利用 这 些 信息 找 出 所 有 的 割 点 。 根 是 割 点 当 且 仅 当 它 有 多 于 一 个 的 儿子 ， 
因为 如 果 它 有 两 个 儿子 , 那么 删除 根 则 使 得 不 同 子 树 上 的 节点 不 连通 ; 如 果 根 只 有 一 个 儿子 ， 
那么 除去 该 根 只 不 过 断 离 该 根 。 对 于 任何 其 他 顶点 v, 它 是 割 点 当 且 仅 当 它 有 某 个 儿子 w 使 得 
Low(w) 宇 Num(v)。 注 意 , 这 个 条 件 在 根 处 总 是 满足 的 ; 因此 , 需要 进行 特别 的 测试 。 

当 我 们 考查 算法 确定 的 割 点 , BU CRI D Bp, 证 明 的 当 部 分 是 明显 的 。D 有 一 个 儿子 E, A 
Low( E) zNum(D), 二 者 都 是 4。 因 此 , 对 EE 来 说 只 有 一 种 方法 到 达 D 上 面 的 任何 一 点 , 那 就 
是 要 通过 D。 类 似 地 , C 也 是 一 个 市 点 , 因为 Low( CG) 宇 Num(C)。 为 了 证 明 该 算法 正确 , 我 们 
必须 证 明 论 断 的 仅 当 部 分 成 立 ( 即 , 它 找 到 所 有 的 割 点 ) 。 我 们 把 它 留 作 一 道 练 习 。 作 为 第 二 个 
例子 , 我 们 指出 (图 9-66) 同样 在 这 个 图 上 应 用 该 算法 在 顶点 C 开始 深度 优先 搜索 的 结果 。 

最 后 , 我 们 给 出 伪 代 码 实现 该 算法 。 设 vertex 包含 数据 域 visited( 初 始 化 为 false), 
num, low 和 parent。 我 们 还 要 有 一 个 (Graph) 类 变量 叫 作 counter, 为 给 先 序 遍 历 编 号 num 
赋值 , 将 counter 初始 化 为 1。 我 们 还 将 省 略 对 根 的 容易 实现 的 测试 。 

正如 我 们 已 经 提 到 的 , 该 算法 可 以 通过 执行 一 次 先 序 遍历 计算 Num 而 后 一 趟 后 序 遍历 计算 
Low 来 实现 。 第 三 趟 遍历 可 以 用 来 检验 哪些 顶点 满足 割 点 的 标准 。 然 而 , 执行 三 趟 遍历 是 一 种 
浪费 。 第 一 趟 在 图 9-67 中 表 出 。 





// Assign Num and compute parents 
void assignNum( Vertex v 
{ 


v.num = counter++; 

v.visitea = true; 

for each Vertex w adjacent to v 
if( !w.visited ) 


w.parent = v; 
assignNum( w ); 





9-66 在 5 开始 深度 优先 搜索 所 得 到 的 深度 优先 树 9-67 对 顶点 的 Num 赋值 的 例 程 ( 伪 代 码 ) 
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第 二 趟 和 第 三 趟 遍历 , 它们 都 是 后 序 遍 历 , 可 以 通过 图 9-68 中 的 代码 来 实现 。 最 后 的 if 
语句 处 理 一 个 特殊 的 情况 。 如 果 邻接 到 wv, 那么 对 w 的 递归 调用 将 发 现 ” 邻接 到 w。 这 不 是 一 
条 背 向 边 ,而 只 是 一 条 已 经 考虑 过 且 需 要 忽略 的 边 。 整 个 过 程 将 计算 出 各 low 和 num 项 的 最 
小 值 , 正如 算法 指定 的 那样 。 


// Assign low; also check for articulation points. 
void assignLow( Vertex v ) 


{ 


v.low = v.num; // Rule 1 
for each Vertex w adjacent to v 


{ 


if( w.num > v.num ) // Forward edge 


assignLow( w ); 
if( w.low >= v.num ) 
System.out.println( v * " is an articulation point" ); 
v.low = min( v.low, w.low ); // Rule 3 
} 
else 
if( v.parent != w ) // Back edge 
v.low = min( v.low, w.num ); // Rule 2 





9-68 计算 Low 并 检验 是 否 割 点 的 伪 代 码 ( 忽略 对 根 的 检验 ) 


不 存在 一 个 遍历 必须 是 先 序 遍历 或 后 序 遍 历 的 法 则 。 在 递归 调用 前 和 递归 调用 后 都 有 可 能 
进行 处 理 。 图 9-69 中 的 过 程 以 一 种 直接 的 方式 将 两 个 例 程 assignNum 和 assignLow 结合 得 
到 过 程 findArt, 


void findArt( Vertex v ) 
{ 


v.visitea = true; 
v.low = v.num = counter**; // Rule 1 
for each Vertex w adjacent to v 


if( !w.visited ) // Forward edge 
{ 


w.parent = v; 
findArt( w ); 


if( w.low >= v.num ) 
System.out.println( v * " is an articulation point" ); 
v.low = min( v.low, w.low ); // Rule 3 
else 
if( v.parent != w ) // Back edge 
v.low = min( v.low, w.num ); // Rule 2 








图 9-69 在 一 次 深度 优先 搜索 (忽略 对 根 的 测试 ) 中 对 制 点 的 检测 ( 伪 代 码 ) 


9.6.3 欧 拉 回 路 
考虑 图 9-70 中 的 三 个 图 。 一 个 流行 的 游戏 是 用 钢笔 重 画 这 些 图 , 每 条 线 恰好 画 一 次 。 在 画图 
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的 时 候 钢 笔 不 要 从 纸 上 离 开 。 作 为 一 个 附加 的 问题 ， 要 使 钢笔 在 开始 画图 时 的 起 点 上 结束 画图 。 
该 游戏 有 一 个 非常 简单 的 解法 。 如 果 你 想 尝 试 求解 该 问题 , 那么 现在 就 可 以 停 下 来 试 一 试 。 

第 一 个 图 仅 当 起 点 在 左下 角 或 右 下 角 时 可 以 画 出 ,而 且 不 可 能 结束 在 起 点 处 。 第 二 个 图 容 
易 画 出 , 它 的 终止 点 和 起 点 相同 , 但 是 , 第 三 个 图 在 游戏 的 限制 条 件 下 根本 画 不 出 来 。 

我 们 可 以 通过 给 每 个 交点 指定 一 个 顶点 而 把 这 个 问题 转化 成 图 论 问题 。 此 时 , 图 的 边 以 自 
然 的 方式 规定 , 如 图 9-71 所 示 。 

AaS ge 
图 9-70 三 幅 图 形 图 9-71 将 游戏 转化 成 图 

将 问题 转化 之 后 , 我 们 必须 在 图 中 找 出 一 条 路 径 , 使 得 该 路 径 访问 图 的 每 条 边 恰 好 一 次 。 如 
果 我 们 要 解决 “附加 的 问题 ", 那么 就 必须 找到 一 个 圈 , 该 圈 经 过 每 条 边 恰好 一 次 。 这 种 图 论 问题 
在 1736 年 由 欧 拉 解决 , 它 标志 着 图 论 的 诞生 。 根 据 特定 问题 的 叙述 不 同 , 这 种 问题 通常 叫 作 欧 拉 
路 径 ( 有 时 称 欧 拉 环 游 一 Euler tour) 或 欧 拉 回路 (Euler circuit) 问题。 虽然 欧 拉 环 游 和 欧 拉 回路 问 
题 稍 有 不 同 , 但 是 却 有 相同 的 基本 解法 。 因 此 , 在 这 一 节 我 们 将 考虑 欧 拉 回 路 问题 。 

能 够 做 的 第 一 个 观察 是 , 其 终点 必须 终止 在 起 点 上 的 欧 拉 回路 只 有 当 图 是 连通 的 并 且 每 个 
顶点 的 度 ( 即 , 边 的 条 数 ) 是 偶数 时 才 有 可 能 存在 。 这 是 因为 , 在 欧 拉 回路 中 , 一 个 顶点 有 边 进 
A, 则 必然 有 边 离开 。 如 果 任 一 顶点 v 的 度 为 奇数 , 那么 实际 上 我 们 早晚 将 会 达到 该 点 , 即 只 有 
一 条 进入 v 的 边 尚 未 访问 到 , 车 沿 该 边 进 入 v 点, 那么 我 们 只 能 停 在 顶点 v, 不 可 能 再 出 来 。 如 
果 恰 好 有 两 个 顶点 的 度 是 奇数 , 那么 当 我 们 从 一 个 奇数 度 的 顶点 出 发 最 后 终止 在 另 一 个 奇数 度 
的 顶点 时 ,仍然 有 可 能 得 到 一 个 欧 拉 环 游 。 这 里 , 欧 拉 环 游 是 必须 访问 图 的 每 一 边 但 最 后 不 一 
定 必须 回 到 起 点 的 路 径 。 如 果 奇 数 度 的 顶点 多 于 两 个 , 那么 欧 拉 环 游 也 是 不 可 能 存在 的 。 

上 一 段 的 观察 给 我 们 提供 了 欧 拉 回路 存在 的 一 个 必要 条 件 。 不 过 , 它 并 未 告诉 我 们 满足 该 
性 质 的 所 有 的 连通 图 是 否 必然 有 一 个 欧 拉 回路 , 也 没有 给 我 们 如 何 找 出 欧 拉 回路 的 具体 指导 。 
事实 上 , 这 个 必要 条 件 也 是 充分 的 。 就 是 说 , 所 有 项 点 的 度 均 为 偶数 的 任何 连通 图 必然 有 欧 拉 
回路 。 不 仅 如 此 , 我 们 还 可 以 以 线性 时 间 找 出 这 样 一 条 回路 。 

由 于 我 们 可 以 用 线性 时 间 检 测 这 个 充分 必要 条 件 , 因此 可 以 假设 我 们 知道 存在 一 条 欧 拉 回 
路 。 此 时 , 基本 算法 就 是 执行 一 次 深度 优先 搜索 。 有 大 量 “ 明 显 的 ”解决 方案 但 是 却 都 行 不 
iB, 我 们 罗列 了 一 些 在 练习 中 。 

主要 问题 在 于 , 我 们 可 能 只 访问 了 图 的 一 部 分 而 提前 返回 到 起 点 。 如 果 从 起 点 出 发 的 所 有 
边 均 已 用 完 , 那么 图 中 就 会 有 的 部 分 遍历 不 到 。 最 容易 的 补救 方法 是 找 出 含有 尚未 访问 的 边 的 
路 径 上 的 第 一 个 顶点 , 并 执行 另外 一 次 深度 优先 搜索 。 这 将 给 出 另外 一 个 回路 , 把 它 拼接 到 原 
来 的 回路 上 。 继 续 该 过 程 直到 所 有 的 边 都 被 遍历 到 为 止 。 

作为 一 个 例子 , 考虑 图 9-72 中 的 图 。 容 易 看 出 , 这 个 图 有 一 个 欧 拉 回路 。 设 从 顶点 5 开 
始 , 我 们 遍历 5, 4, 10, 5, 此 时 我 们 已 无 路 可 走 , 图 的 大 部 分 都 还 未 遍历 到 。 情 况 如 图 9-73 
所 示 。 














图 9-72 ”网 拉 回路 问题 的 图 
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[89-73 在 访问 5, 4，10, 5 后 剩 下 的 图 


此 时 , 我 们 从 顶点 4 继续 进行 ， 它 仍然 还 有 没 用 到 的 边 。 结 果 ,， 又 得 到 路 径 4，1，3，7， 
4, 11, 10, 7, 9, 3，4。 如 果 我 们 把 这 条 路 径 拼 接 到 前 面 的 路 径 5，4，10，5 E, 那么 就 得 到 
一 条 新 的 路 径 5; 4, 1, 3, 7, 4, 11, 10, 7, 9, 3; 4, 10, 5, 

此 后 , 剩 下 的 图 在 图 9-74 中 表示 。 注 意 , 在 这 个 图 中 , 所 有 的 顶点 的 度 必 然 都 是 偶数 , 因 
此 , 我 们 保证 能 够 找到 一 个 圈 再 拼接 上 。 剩 下 的 图 可 能 不 是 连通 的 , 但 这 并 不 重要 。 路 径 上 存 
有 未 被 访问 的 边 的 下 一 个 顶点 是 3。 此 时 可 能 的 回路 可 以 是 3，2，8，9，6,，3。 当 拼接 进来 之 
后 , 我 们 得 到 路 径 5, 4, 1, 3, 2, 8, 9, 6, 3, 7, 4, 11, 10, 7, 9, 3, 4, 10, 5, 
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图 9-74 在 路 径 5, 4, 1, 3, 7, 4, 11, 10, 7, 9, 3, 4, 10, 5 之 后 剩 下 的 图 


剩 下 的 图 在 图 9-75 中 。 在 该 路 径 上 , 带 有 未 遍历 边 的 下 一 个 顶点 是 9, 算法 找到 回路 9， 
12，10，9。 当 把 它 拼接 到 当前 路 径 中 时 , 我 们 得 到 回路 5, 4, 1, 3, 2, 8, 9, 12, 10, 9, 6, 
3, 7, 4, 11, 10, 7, 9, 3, 4，10,，5。 当 所 有 的 边 都 被 遍历 时 , 算法 终止 , 我 们 得 到 一 个 欧 
拉 回 路 。 
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H19-75 ERS, 4, 1, 3, 2, 8, 9, 6, 3, 7, 4, 11, 10, 7, 9, 3, 4, 10, 5 后 利 下 的 图 


为 使 算法 更 有 效 , 必须 使 用 适当 的 数据 结构 。 我 们 将 概述 想法 而 把 实现 方法 留 作 练习 。 为 
使 拼接 简单 ,应 该 把 路 径 作为 一 个 链表 保留 。 为 避免 重复 扫描 邻接 表 , 对 于 每 一 个 邻接 表 我 们 
都 必须 保留 最 后 扫描 到 的 边 。 当 拼接 进 一 个 路 径 时 , 必须 从 拼接 点 开始 搜索 新 项 点, 从 这 个 新 
项 点 进行 下 一 轮 深度 优先 搜索 。 这 将 保证 在 整个 算法 期 间 对 顶点 搜索 阶段 所 进行 的 全 部 工作 量 
为 0( |E| ) 。 使 用 适当 的 数据 结构 , 算法 的 运行 时 间 为 0( | 五 | + |V|)。 

一 个 非常 相似 的 问题 是 在 无 向 图 中 寻找 一 个 简单 的 圈 , 该 圈 通 过 图 的 每 一 个 项 点。 这 个 问 
题 称 为 哈密 尔 顿 圈 问 题 ( Hamiltonian cycle problem) 。 虽 然 看 起 来 这 个 问题 似乎 差不多 和 欧 拉 回 
路 问题 一 样 , 但 是 , 对 它 却 没 有 已 知 的 有 效 算法 。 我 们 将 在 9. 7 节 中 再 次 遇 到 这 个 问题 。 
9.6.4 有 向 图 

利用 与 无 向 图 相同 的 思路 , 也 可 以 通过 深度 优先 搜索 以 线性 时 间 遍 历 有 向 图 。 如 果 图 不 是 
强 连通 的 , 那么 从 某 个 节点 开始 的 深度 优先 搜索 可 能 访问 不 了 所 有 的 节点 。 在 这 种 情况 下 我 们 
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在 某 个 未 作 标记 的 节点 处 开始 , 反复 执行 深度 优先 搜索 ,直到 所 有 的 节点 都 被 访问 到 。 作 为 例 
子 , 考虑 图 9-76 中 的 有 向 图 。 

我 们 在 顶点 8 任意 开始 深度 优先 搜索 。 它 访问 项 点 B, C, A, D, E RIF. Ria, 在 某 个 未 
访问 的 项 点 再 重新 开始 。 任 意 地 , ZEW Pa, 访问 J 和 1。 最 后 , 在 6G 点 开始 , 它 是 最 后 一 个 需 
要 访问 的 顶点 。 对 应 的 深度 优先 搜索 树 如 图 9-77 中 所 示 。 





图 9-76 一 个 有 向 图 图 9-77 前 面 的 图 的 深度 优先 搜索 


深度 优先 生成 森林 中 虚线 第 头 是 一 些 (v, w) 边 , 其 中 的 w 在 考查 时 已 经 做 了 标记 。 在 无 向 
图 中 , 它们 总 是 一 些 背 向 边 , 但 是 我 们 可 以 看 到 , 存在 三 种 类 型 的 边 并 不 通 向 新 的 顶点 。 首 先 
是 一 些 背 向 边 如 (4，B8) AIC, H). BA —2E BT I (forward edge) M(C, D) RICC, E), 它们 
从 树 的 一 个 节点 通 向 一 个 后 裔 。 最 后 就 是 一 些 交 叉 边 (eross edge), MIC F, C)fIÉÉCC, F), 它们 
把 不 直接 相关 的 两 个 树 节点 连接 起 来 。 深 度 优先 搜索 森林 一 般 通过 把 一 些 子 节点 和 一 些 添加 到 
森林 中 的 新 的 树 从 左 到 右 画 出 。 在 以 这 种 方式 画 出 的 有 向 图 的 深度 优先 搜索 中 , 交叉 边 总 是 从 
右 到 左 行进 的 。 

有 些 使 用 深度 优先 搜索 的 算法 需要 区 别 三 种 类 型 的 非 树 边 。 当 进行 深度 优先 搜索 时 这 是 容 
易 检 验 的 , 我 们 把 它 留 作 一 道 练 习 。 

深度 优先 搜索 的 一 种 用 途 是 检测 一 个 有 向 图 是 否 是 无 圈 图 , 法 则 如 下 : 一 个 有 向 图 是 无 圈 
图 ， 当 且 仅 当 它 没有 背 向 边 。( 上 面 的 图 有 背 向 边 , 因此 它 不 是 无 圈 图 。) 读 者 可 能 还 记得 , 拓 
扑 排序 也 可 以 用 来 确定 一 个 图 是 否 是 无 圈 图 。 进 行 拓 扑 排序 的 另 一 种 方法 是 通过 深度 优先 生成 
森林 的 后 序 遍 历 给 项 点 指定 拓扑 编号 N, N -1，…，1。 只 要 图 是 无 圈 的 ,这 种 排序 就 是 一 
致 的 。 

9.6.5 查找 强 分 支 

通过 执行 两 次 深度 优先 搜索 , 我 们 可 以 测试 一 个 有 向 图 是 否 是 强 连 通 的 , 如 果 它 不 是 强 连 
通 的 , 那么 我 们 实际 上 可 以 得 到 顶点 的 一 些 子 集 , 它们 到 其 自身 是 强 连 通 的 。 这 也 可 以 只 用 一 
次 深度 优先 搜索 实现 , 不 过 ,此 处 所 使 用 的 方法 理解 起 来 要 简单 得 多 。 

Hc, 在 一 个 输入 的 图 C 上 执行 一 次 深度 优先 搜索 。 通过 对 深度 优先 生成 森林 的 后 Hos p 
将 G 的 顶点 编号 ， 然 后 再 把 C 的 所 有 的 边 反 向 , 形成 
G,。 图 9-78 中 的 图 代表 图 9-76 所 示 的 图 G 的 C,; 顶点 
用 它们 的 编号 表 出 。 

该 算法 通过 对 G6, 执行 一 次 深度 优先 搜索 而 完成 ， 
总 是 在 编号 最 高 的 顶点 开始 一 次 新 的 深度 优先 搜索 。 
于 是 , 在 顶点 6G 开 始 对 G6, 的 深度 优先 搜索 , C 的 编号 
为 10。 但 该 项 点 不 通 向 任何 顶点 , 因此 下 一 次 搜索 在 
瑟 点 开始 。 这 次 调用 访问 T 和 J。 下 一 次 调用 在 B 点 开 
始 并 访问 4、C 和 有 。 此 后 的 调用 是 sfs(D) 及 最 终 调 
用 afs(E)。 结 果 得 到 的 深度 优先 生成 森林 如 图 9-79 图 9-78 通过 对 图 9-76 中 的 图 G 的 
中 所 示 。 后 序 遍 历 所 编号 的 C， 
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图 9-79 C, 的 深度 优先 搜索 一 一 强 分 支 为 | G1 ,|{H, 0, J}, 1B, A, C, F}, |D}, {E} 


在 该 深度 优先 生成 森林 中 的 每 棵 树 ( 如 果 完 全 忽略 所 有 的 非 树 边 , 那么 这 会 更 容易 看 出 ) 形 
成 一 个 强 连通 的 分 支 。 因 此 ,对 于 我 们 的 例子 , 这 些 强 连通 分 支 为 164 一 HH;1 Jt, 1B, A, 
C, F}, IDI fll El, 

为 了 理解 该 算法 为 什么 成 立 , 首先 注意 到 ,如果 两 个 顶点 RI w 都 在 同一 个 强 连通 分 支 中 ， 
那么 在 原 图 6 中 就 存在 从 到 w 的 路 径 和 从 w 到 wv 的 路 径 , 因此 , 在 C, 中 也 存在 。 现 在 , 如 果 
两 个 顶点 v 和 w 不 在 6, 的 同一 个 深度 优先 生成 树 中 , 那么 显然 它们 也 不 可 能 在 同一 个 强 连通 分 
支 中 。 

为 了 证 明 该 算法 成 立 , 我 们 必须 指出 ,如 果 两 个 顶点 v 和 w 在 G, 的 同一 个 深度 优先 生成 树 
H, 那么 必然 存在 从 v 到 w 的 路 径 和 从 w 到 vw 的 路 径 。 等 价 地 , 我 们 可 以 证 明 , WR x G, 
A v 的 深度 优先 生成 树 的 根 , 那么 存在 一 条 从 x 到 v 和 从 v 到 x 的 路 径 。 对 w 应 用 相同 的 推理 则 
得 到 一 条 从 x 到 w 和 从 w 到 x 的 路 径 。 这 些 路 径 意 味 着 那些 从 v 到 w 和 从 w 到 v( 经 过 x) 的 
路 径 。 

由 于 "是 x 在 G, 的 深度 优先 生成 树 中 的 一 个 后 裔 ,因此 存在 C, 中 一 条 从 x 到 v 的 路 径 ,， 从 
而 存在 6 中 一 条 从 v 到 x 的 路 径 。 此 外 , 由 于 x 是 根 节点 , 因此 x 从 第 一 次 深度 优先 搜索 得 到 更 
高 的 后 序 编号 。 于 是 , 在 第 一 次 深度 优先 搜索 期 间 所 有 处 理 v 的 工作 都 在 x 的 工作 结束 前 完成 。 
既然 存在 一 条 从 vw 到 x 的 路 径 , 因此 v 必然 是 x 在 6 的 生成 树 中 的 一 个 后 裔 一 一 否则 "将 在 x 之 
后 结束 。 这 意味 着 6G 中 从 x 到 "有 一 条 路 径 , 证 明 完 成 。 


9.7 NP- 完全 性 介绍 


在 这 一 章 , 我 们 已 经 看 到 各 种 各 样 图 论 问题 的 解法 。 所 有 这 些 问 题 都 有 一 个 多 项 式 运 行 时 
E, 除 网 络 流 问题 外 , 运行 时 间或 者 是 线性 的 , 或 者 稍微 比 线性 多 一 些 (0( | E | log|E|)). I 
便 指出 , 我 们 还 提 到 , 对 于 某 些 问题 , 有 些 变化 似乎 比 原 问题 要 困难 。 

回忆 欧 拉 回路 问题 , 它 要 求 找 出 一 条 经 过 图 的 每 条 边 恰 好 一 次 的 路 径 , 该 问题 是 线性 时 间 
可 解 的 。 哈 密 尔 顿 圈 问 题 要 找 一 个 简单 圈 , 该 圈 包 含 图 的 每 一 个 顶点 。 对 于 这 个 问题 , 尚未 发 
现 有 线性 算法 。 

对 于 有 向 图 的 单 源 无 权 最 短路 径 问题 也 是 线性 时 间 可 解 的 。 但 对 应 的 最 长 简单 路 径 问题 
(longest-simple-path ) 尚 不 知 有 线性 时 间 算 法 。 

这 些 问 题 的 变化 , 其 情况 实际 上 比 我 们 描述 的 还 要 糟 。 对 于 这 些 变种 问题 不 仅 不 知道 线性 
算法 ,而 且 不 存在 保证 以 多 项 式 时 间 运 行 的 已 知 算法 。 这 些 问题 的 一 些 熟 知 算法 对 于 某 些 输入 
可 能 要 花费 指数 时 间 。 

在 这 一 节 , 我 们 将 简要 考查 这 种 问题 , 它们 是 相当 复杂 的 , 因此 我 们 将 只 进行 快速 和 非 正 
式 的 探讨 。 这 样 一 来 , 我 们 的 讨论 可 能 (必然 地 ) 在 一 些 地 方 或 多 或 少 地 有 些 不 准确 的 缺憾 。 

我 们 将 看 到 , 存在 大 量 重要 的 问题 , 它们 在 复杂 性 上 大 体 是 等 价 的 。 这 些 问题 形成 一 个 类 ， 
叫 作 NP- 完 全 (NP-complete) 问题 。 这 些 NP- 完 全 问题 精确 的 复杂 度 仍然 需要 确定 并 且 在 计算 机 
理论 科学 方面 仍然 是 最 重要 的 开放 性 问题 。 或 者 所 有 这 些 问题 都 有 多 项 式 时 间 解 法 , 或 者 它们 
都 没有 多 项 式 时 间 解 法 。 
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9.7.1 难 与 易 

在 给 问题 分 类 时 , 第 一 步 要 考虑 的 是 分 界 。 我 们 已 经 看 到 , 许多 问题 可 以 用 线性 时 间 求 解 
我 们 还 看 到 某 些 0(1logN) 的 运行 时 间 , 但 是 它们 或 者 假定 已 做 了 某 些 预 处 理 ( 如 输入 数据 已 读 
和 人 或 数据 结构 已 建立 ) , 或 者 出 现在 运算 实例 中 。 例 如 ，gcd( 最 高 公 因数 ) 算 法 , 当 用 于 两 个 数 
M AUN BY, 花费 0(logN) 时 间 。 由 于 这 两 个 数 分 别 由 1logM 和 1logN 个 二 进 制 位 组 成 , 因此 ged 算 
法 实际 上 花费 的 时 间 对 于 输入 数据 的 量 或 大 小 而 言 是 线性 的 。 由 此 可 知 ， 当 我 们 度量 运行 时 间 
时 ,我 们 将 把 运行 时 间 考 虑 成 输入 数据 的 量 的 函数 。 一 般 说 来 , 我 们 不 能 期 望 运行 时 间 比 线性 
更 好 。 

另 一 方面 , 确实 存在 某 些 真正 难 的 问题 。 这 些 问 题 是 如 此 的 难 , 以 至 于 它们 不 可 能 解 出 。 
但 这 并 不 意味 着 通常 的 那 种 书 恼 叹息 , 期 待 着 天 才 来 求解 该 问题 。 正 如 实数 不 足以 表示 <0 
的 解 那样 , 可 以 证 明 , 计算 机 不 可 能 解决 碰巧 发 生 的 每 一 个 问题 。 这 些 “ 不 可 能 ”解决 的 问题 
叫 作 不 可 判定 问题 (undecidable problem) 。 

一 个 特殊 的 不 可 判定 问题 是 停机 问题 (halting problem) 。 是 和 否 能 够 使 Java 编译 器 拥有 一 个 
附加 的 特性 , 即 不 仅 能 够 检查 语法 错误 , 而 且 还 能 够 检查 所 有 的 无 限 循环 ?” 这 似乎 是 一 个 难 的 
问题 , 但 是 我 们 或 许 期望 , 假如 某 些 非 常 聪 明 的 程序 员 花 上 足够 的 时 间 , 他 们 也 许 能 够 编制 出 
这 种 增强 型 的 编译 器 。 

该 问题 是 不 可 判定 的 ， 其 直观 原因 在 于 , 这 样 一 个 程序 可 能 很 难 检 查 它 自己 。 由 于 这 个 原 
因 ,， 有 时 这 些 问题 叫 作 是 递归 不 可 判定 的 (reeursively undecidable ) 。 

假如 一 个 无 限 循 环 检查 程序 能 够 写 出 , 那么 它 肯 定 可 以 用 于 自 检 。 假 设 此 时 我 们 可 以 编写 
出 一 个 程序 叫 作 LOOP, LOOP 把 一 个 程序 P 作 为 输入 并 使 P 自身 运行 。 如 果 P 自身 运行 时 出 
现 循环 , 则 显示 短语 YES, WARP 自身 运行 时 终止 了 , 那么 自然 要 做 的 事 是 显示 NO。 现 在 , 我 
们 不 这 么 做 , 而 是 让 LOOP 进入 一 个 无 限 循环 。 

当 LOOP 将 自身 作为 输入 时 会 发 生 什么 呢 ? 或 者 LOOP 停止 , 或 者 不 停止 。 问 题 在 于 , 这 
两 种 可 能 性 均 导 致 矛 盾 , 与 短语 “本 句 话 是 谎言 ”产生 的 矛盾 大 致 相同 。 

根据 我 们 的 定义 , 如 果 P(P) 终 止 , M ZOOP(P) 进 入 一 个 无 限 循环 。 设 当 已 =LOOP h, 
P(P) 终 止 。 此 时 , 按照 LOOP 程序 ,LOOP(P) 应 该 进入 一 个 无 限 循 环 。 因 此 , 我 们 必须 让 
LOOP(LOOP) 终 止 并 进入 一 个 无 限 循环 ， 显 然 这 是 不 可 能 的 。 另 一 方面 , 设 当 已 =LOOP 时 
P(P) 进入 一 个 无 限 循环 , 则 ZOOP(P) 必 然 终 止 ,， 而 我 们 得 到 同样 的 一 组 矛盾 。 因 此 , 我 们 看 
到 , 程序 LOOP 不 可 能 存在 。 

9.7.2 NP 类 

NP 类 是 在 难度 上 了 还 于 不 可 判定 问题 的 类 。NP 代表 非 确定 型 多 项 式 时 间 ( nondeterministic 
polynomial-time) 。 确 定型 机 器 在 每 一 时 刻 都 在 执行 一 条 指令 。 根 据 这 条 指令 , 机 器 再 去 执行 某 
条 接 下 来 的 指令 , 这 是 唯一 确定 的 。 而 一 台 非 确定 型 机 器 对 其 后 的 步骤 是 有 选择 的 。 它 可 以 自 
由 进行 它 想 要 的 任意 的 选择 , 如 果 这 些 后 面 的 步骤 中 有 一 条 导致 问题 的 解 , 那么 它 将 总 是 选择 
这 个 正确 的 步骤 。 因 此 , 非 确定 型 机 器 具有 非常 好 的 猜测 (优化 ) 能 力 。 这 好 像 一 台 奇 怪 的 模 
H, 因为 没有 人 能 够 构建 一 台 非 确定 型 计算 机 , 还 因为 这 台 机 器 是 对 标准 计算 机 的 令 人 难以 置 
信 的 改进 (此 时 每 一 个 问题 都 变 成 易 解 的 了 ) 。 我 们 将 看 到 , 非 确定 性 是 非常 有 用 的 理论 结构 。 
此 外 , 非 确定 性 也 不 像 人 们 想象 的 那么 强大 。 例 如 , 即使 使 用 非 确 定性 , 不 可 判定 问题 仍然 还 
是 不 可 判定 的 。 

检验 一 个 问题 是 否 属于 NP 的 简单 方法 是 将 该 问题 用 “是 / 否 (yes/no) 问 题 ” 的 语言 描述 。 
如 果 我 们 在 多 项 式 时 间 内 能 够 证 明 一 个 问题 的 任意 “是 ”的 实例 是 正确 的 , 那么 该 问题 就 属于 
NP 类。 我们 不 必 担 心 “ 否 ”的 实例 , 因为 程序 总 是 进行 正确 的 选择 。 因 此 , 对 于 哈密 尔 顿 圈 
问题 , 一 个 “是 ”的 实例 就 是 图 中 任意 一 个 包含 所 有 顶点 的 简单 的 回路 。 由 于 给 定 一 条 路 径 ， 
验证 它 是 否 真 的 是 哈密 尔 顿 圈 是 一 件 简单 的 事情 , 因此 哈密 尔 顿 图 问题 属于 NP。 诸如 “存在 
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长 度 大 于 上 的 简单 路 径 吗 ?” 这 样 的 适当 的 问题 也 可 能 容易 验证 从 而 属于 NP。 满 足 这 条 性 质 的 
任何 路 径 均 可 容易 地 检验 。 

由 于 解 本 身 显然 提供 了 验证 方法 , 因此 ,NP 类 包括 所 有 具有 多项式 时 间 解 的 问题 。 人 们 会 
想到 ,既然 验证 一 个 答案 要 比 经 过 计算 提出 一 个 答案 容易 的 多 , 因此 在 NP 中 就 会 存在 不 具有 
多 项 式 时 间 解 法 的 问题 。 这 样 的 问题 至 今 没 有 发 现 , 于 是 , 完全 有 可 能 非 确定 性 并 不 是 如 此 重 
要 的 改进 , 尽管 有 些 专 家 很 可 能 不 这 么 认为 。 问 题 在 于 , 证 明 指数 下 界 是 一 项 极其 困难 的 工作 。 
我 们 曾 用 来 证 明 排序 需要 C NlogN) 次 比较 的 信息 理论 定 界 方法 似乎 还 不 足以 完成 这 样 的 工作 ， 
因为 决策 树 都 远 不 够 大 。 

还 要 注意 , 不 是 所 有 的 可 判定 问题 都 属于 NP。 考 虑 确定 一 个 图 是 否 没 有 哈密 尔 顿 圈 的 问 
题 。 证 明 一 个 图 有 哈密 尔 顿 圈 是 相对 简单 的 一 件 事 情 一 一 我 们 只 需 展 示 一 个 即 可 = 然而 却 没有 
人 知道 如 何以 多 项 式 时 间 证 明 一 个 图 没有 哈密 尔 顿 圈 。 似 乎 人 们 只 能 枚 举 所 有 的 圈 并 且 将 它们 
一 个 一 个 地 验证 才 行 。 因 此 , 无 哈密 尔 顿 圈 的 问题 不 知 属于 不 属于 NP。 

9.7.3 NP- 完 全 问题 

在 已 知 属于 NP 的 所 有 问题 中 , 存在 一 个 子 集 , 叫 作 NP- 完 全 (NP-complete) 问 题 , EAA T 
NP 中 最 难 的 问题 。NP- 完 全 问题 有 一 个 性 质 , BI NP 中 的 任 一 问题 都 能 够 以 多 项 式 时 间 归 约 成 
NP- 完 全 问题 。 

问题 P 可 以 归 约 成 问题 已 如 下 : 设 有 一 个 映射 , 使 得 P, 的 任何 实例 都 可 以 变换 成 P, 的 
一 个 实例 。 求 解 P,, 然后 将 答案 映射 回 原始 的 解答 。 作 为 一 个 例子 , 考虑 把 数 以 十 进 制 输入 到 
一 只 计算 器 。 将 这 些 十 进 制 数 转化 成 二 进 制 数 , 所 有 的 计算 都 用 二 进 制 进行 。 然 后 , 再 把 最 后 
答案 转变 成 十 进 制 显示 。 对 于 可 多 项 式 地 归 约 成 P, 的 已 , 与 变换 相 联系 的 所 有 的 工作 必须 以 
多 项 式 时 间 完 成 。 

NP- 完 全 问题 是 最 难 的 NP 问题 的 原因 在 于 , 一 个 NP- 完 全 的 问题 基本 上 可 以 用 作 NP 中 任 
何 问题 的 子 例 程 , 其 花费 只 不 过 是 多 项 式 的 开销 量 。 因 此 , 如果 任 意 NP- 完 全 问题 有 一 个 多 项 
式 时 间 解 , 那么 NP 中 的 每 一 个 问题 必然 都 有 一 个 多 项 式 时 间 的 解 。 这 使 得 NP- 完 全 问题 是 所 
有 NP 问题 中 最 难 的 问题 。 

设 我 们 有 一 个 NP- 完 全 问题 已, 并 设 P. 已 知 属于 NP。 :再 进一步 假设 P, 多 项 式 地 归 约 成 
Pi, 使 得 我 们 可 以 通过 使 用 P, 求解 忆 只 多 损耗 了 多 项 式 时间 。 由 于 PP 是 NP- 完 全 的 , NP 中 的 
每 一 个 问题 都 可 多 项 式 地 归 约 成 P,。 应 用 多 项 式 的 封闭 性 , 我 们 看 到 ，NP 中 的 每 一 个 问题 均 
可 多 项 式 地 归 约 成 P,: 我 们 把 问题 归 约 成 已 ,然后 再 把 P, 归 约 成 P,。 因 此 , P, 是 NP 完全 的 。 

作为 一 个 例子 ， 设 我 们 已 经 知道 哈密 尔 顿 圈 问 题 是 NP- 完全 问题 。 巡 回 售 货 员 问题 
(traveling salesman problem) 表述 如 下 。 

巡回 售货员 问题 

给 定 一 完全 图 C=(V, 有 ， 它 的 边 的 值 以 及 整数 上 ,是否 存在 一 个 访问 所 有 项 点 并 且 总 值 
小 于 或 等 于 kK 的 简单 圈 ? 

这 个 问题 不 同 于 哈密 尔 顿 圈 问题 ,因为 全 部 |V|( |V| -1)/2 条 边 都 存在 而 且 图 是 赋 权 
图 。 该 问题 有 很 多 重要 的 应 用 。 例 如 , 印刷 电路 板 需要 穿 一 些 孔 使 得 芯片 、 电 阻 器 以 及 其 他 的 
电子 元 件 可 以 置信 。 这 是 可 以 机 械 完 成 的 。 穿 孔 是 快速 的 操作 ; 时 间 耗 费 在 给 穿孔 器 定位 上 。 
定位 所 需要 的 时 间 依 赖 于 从 孔 到 和 孔 间 行进 的 距离 。 由 于 我 们 和 希望 给 每 一 个 孔 位 穿孔 (然后 返回 
到 开始 位 置 以 便 给 下 一 块 电路 板 穿孔 ), 并 将 钻头 移动 所 耗费 的 总 时 间 限 制 到 最 小 , 因此 我 们 
得 到 的 是 一 个 巡回 售货员 问题 。 

巡回 售货员 问题 是 NP- 完 全 的 。 容 易 看 到 ,其 解 可 以 用 多 项 式 时 间 检 验 ， 当 然 它 属于 NP. 
为 了 证 明 它 是 NP- 完 全 的 , 我 们 可 多 项 式 地 将 哈密 尔 顿 圈 问 题 归 约 为 巡回 售货员 问题 。 为 此 ， 
构造 一 个 新 的 图 C"，C 和 CC 有 相同 的 顶点 。 对 于 G "的 每 一 条 边 (2，w) ,如果 (v, w) eC, 那么 
它 就 有 权 1, 否则 , 它 的 权 就 是 2。 我 们 选取 天 = | 了 | 。 见 图 9-80。 














$ 


图 9-80 ”哈密 尔 顿 圈 问 题 变换 成 巡回 售货员 问题 


容易 验证 , G 有 一 个 哈密 尔 顿 圈 当 且 仅 当 6' 有 一 个 总 权 为 | Y | 的 巡回 售货员 的 巡回 路 线 。 

现在 有 许多 问题 已 知 是 NP- 完 全 问题 。 为 了 证 明 某 个 新 间 题 是 NP- 完 全 的 , 必须 证 明 它 属 
于 NP, 然后 将 一 个 适当 的 NP- 完 全 问题 变换 到 该 问题 。 虽 然 到 巡回 售货员 问题 的 变换 是 相当 简 
单 的 , 但 是 , 大 部 分 变换 实际 上 却 是 相当 复杂 的 , 需要 某 些 复杂 的 构造 。 一 般 说 , 在 考虑 了 多 个 
不 同 的 NP- 完 全 问题 之 后 才 考 虑 实际 提供 约 化 的 问题 。 由 于 我 们 只 关注 一 般 的 想法 , 因此 也 就 
不 再 讨论 更 多 的 变换 ; 有 兴趣 的 读者 可 以 查阅 本 章 后 面 的 参考 文献 。 

细心 的 读者 可 能 想 知道 第 一 个 NP- 完 全 问题 是 如 何 具 体 地 被 证 明 是 NP- 完 全 的 。 由 于 证 明 
一 个 问题 是 NP- 完 全 的 需要 从 另外 一 个 NP- 完 全 问题 变换 到 它 , 因此 必然 存在 某 个 NP- 完 全 问 
题 , 对 于 这 个 问题 不 能 使 用 上 述 的 思路 。 第 一 个 被 证 明 是 NP- 完 全 的 问题 是 可 满足 性 
( satisfiability ) 问题 。 这 个 可 满足 性 问题 把 一 个 布尔 表达 式 作为 输入 并 提问 是 否 该 表达 式 对 式 中 
各 变量 的 一 次 赋值 取 值 true。 

可 满足 性 当然 属于 NP, 因为 容易 计算 一 个 布尔 表达 式 的 值 并 检查 结果 是 否 为 真 (true)。 
在 1971 4E, Cook 通过 直接 证 明 NP 中 的 所 有 问题 都 可 以 变换 成 可 满足 性 问题 而 证 明了 可 满足 性 
问题 是 NP- 完 全 的 。 为 此 , 他 用 到 了 对 NP 中 每 一 个 问题 都 已 知 的 事实 : NP 中 的 每 一 个 问题 都 
可 以 用 一 台 非 确定 型 计算 机 在 多 项 式 时 间 内 求解 。 计 算 机 的 这 种 形式 化 的 模型 称 作 图 灵机 
(Turing machine), Cook 指出 这 人 台 机 器 的 动作 如 何 能 够 用 一 个 极其 复杂 但 仍然 是 多 项 式 的 宛 长 
的 布尔 公式 来 模拟 。 该 布尔 公式 为 真 ， 当 上 且 仅 当 在 由 图 灵机 和 运行 的 程序 对 其 输入 得 到 一 个 
“是 ”的 答案 。 

一 旦 可 满足 性 被 证 明 是 NP- 完 全 的 , 则 一 大 批 新 的 NP- 完 全 问题 , 包括 某 些 最 经 典 的 问题 ， 
也 都 被 证 明 是 NP- 完 全 的 。 

除了 我 们 已 经 讨论 过 的 可 满足 性 问题 、 哈 密 尔 顿 回路 问题 、 巡 回 售货员 问题 、 最 长 路 径 问 
题 , 还 有 一 些 我 们 尚未 讨论 的 更 为 著名 的 NP- 完 全 问题 , 它们 是 装 箱 ( bin packing) 问题 、 背 包 
(knapsack) 问题 、 图 的 着 色 ( graph coloring) 问题 以 及 团 (clique) 的 问题 等 。 这 些 NP- 完 全 问题 
相当 广泛 , 包括 来 自 操作 系统 (调度 与 安全 ) 、 数 据 库 系统 、 运 筹 学 、 逻 辑 学 ,特别 是 图 论 等 不 
同 的 领域 的 问题 。 


小 结 


在 这 一 章 , 我 们 已 经 看 到 图 如 何 用 来 对 许多 实际 生活 问题 给 出 模型 。 许 多 实际 出 现 的 图 常 
常 是 非常 稀疏 的 , 因此 , 注意 用 于 实现 这 些 图 的 数据 结构 很 重要 。 

我 们 还 看 到 一 类 问题 , 它们 似乎 没有 有 效 的 解法 。 在 第 10 章 将 讨论 处 理 这 些 问题 的 某 些 
方法 。 
练习 


9.1 ” 找 出 图 9-81 中 图 的 一 个 拓扑 排序 。 
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9.2 


9.3 
9.4 


9:3 


9. 6 


9.7 


“9.8 
9.9 
9.10 


9. 11 
9. 12 


9. 13 


"b. 证 明 , 如 果 存 在 负 权 边 但 无 负 值 圈 , 则 9.3.3 














图 9-81 练习 9.1 和 9.11 中 使 用 的 图 


如 果 用 一 个 栈 代替 9. 2 节 中 拓扑 排序 算法 的 队列 , 是 否 得 到 不 同 的 排序 ? 为 什么 一 种 数据 结构 会 

给 出 “更 好 ”的 答案 ? 

编写 一 个 对 一 个 图 执行 拓扑 排序 的 程序 。 

使 用 标准 的 二 重 循环 , 一 个 邻接 矩阵 仅仅 初始 化 就 需要 0( | V 1”)。 试 提出 一 种 方法 将 一 个 图 存 

储 在 一 个 邻接 矩阵 中 (使 得 测试 一 条 边 是 否 存在 花费 OCT) ) 时 间 但 避免 二 次 的 运行 时 间 。 

a. 找 出 图 9-82 中 图 的 A 点 到 所 有 其 他 顶点 的 最 

短路 径 。 

b. 找 出 图 9-82 中 图 的 B 点 到 所 有 其 他 顶点 的 最 

短 无 权 路 径 。 

当 用 d- 堆 实现 时 ( 见 6.5 节 ) ，Dijkstra 算法 最 坏 

情形 的 运行 时 间 是 多 少 ? 

a. 给 出 在 有 一 条 负 边 但 无 负 值 圈 时 Dijkstra 算法 
得 到 错误 答案 的 例子 。 





图 9-82 练习 9.5 使 用 的 图 


节 中 提出 的 赋 权 最 短路 径 算法 是 成 立 的 ,并 证 
明 该 算法 的 运行 时 间 为 O( || - vl». 

设 一 个 图 的 所 有 边 的 权 都 是 在 1 和 | 五 | 之 间 的 整数 。Dijkstra 算法 可 以 多 快 被 实现 ? 

写 出 一 个 程序 来 求解 单 源 最 短路 径 问 题 。 

a. 解释 如 何 修改 Dijkstra 算法 以 得 到 从 y I w 的 不 同 的 最 小 路 径 的 条 数 的 计数 。 

b. 解释 如 何 修改 Dijkstra 算法 使 得 如 果 存 在 多 于 一 条 从 * 到 立 的 最 小 路 径 , 那么 具有 最 少 边 数 的 
路 径 将 被 选中 。 

找 出 图 9-81 中 网 络 的 最 天 流 。 

设 G=(V,E) 是 一 棵 树 , s 是 它 的 根 , 并 且 添加 一 个 顶点 + 以 及 一 些 从 CG 中 所 有 树叶 到 :的 无 穷 容 

量 的 边 。 给 出 一 个 线性 时 间 算法 以 找 出 从 s 到 1 的 最 大 流 。 

一 个 二 分 图 CG=(V, 5) 是 把 V 划 分 成 两 个 子 集 V 入 并 且 其 每 条 边 的 两 个 顶点 都 不 在 同一 个 子 

2 eg 

a. 给 出 一 个 线性 算法 以 确定 一 个 图 是 否 是 二 分 图 。 

b， 二 分 匹配 问题 是 找 出 的 最 大 子 集 5' 使 得 没有 
顶点 含 在 多 于 一 条 的 边 中 。 图 9-83 中 所 示 的 
是 四 条 边 的 一 个 匹配 ( 由 虚线 表示 ) 。 存 在 一 个 
五 条 边 的 匹配 , 它 是 最 大 的 匹配 。 

指出 二 分 匹配 问题 如 何 能 够 用 于 解决 下 列 

问题 有 一 组 教师 、 一 组 课程 ， 以 及 每 位 教师 图 9-83 一 个 一 分 图 
有 资格 教授 的 课程 表 。 如 果 没 有 教师 需要 教授 多 于 一 门 的 课程 , 而 且 只 有 一 位 教师 可 以 教授 
一 门 给 定 的 课程 , 那么 可 以 提供 开设 的 课程 的 最 大 门 数 是 多 少 ? 

e. 证 明 网 络 流 问题 可 以 用 来 解决 二 分 匹配 问题 。 

d. 问题 b 的 解法 的 时 间 复 杂 度 如 何 ? 





“9.14 给 出 一 个 算法 找 出 容许 最 大 流通 过 的 一 条 增长 通路 。 


9. 15 


a. 使 用 Prim 和 Kruskal 两 种 算法 求 出 图 9-84. 中 图 的 最 小 生成 树 。 
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b. 这 棵 最 小 生成 树 是 唯一 的 吗 ? 为 什么 ? 

如 果 有 一 些 负 的 边 权 , 那么 Prim 算法 或 Kruskal 算法 还 能 行 得 通 吗 ? 

证 明了 个 顶点 的 图 可 以 有 大 一 棵 最 小 生成 树 。 

编写 一 个 程序 实现 Kruskal 算法 。 

如 果 一 个 图 的 所 有 边 的 权 都 在 1 和 | E | 之 间 , 那么 能 有 多 快 算出 最 小 生成 树 ? 

给 出 一 种 算法 求解 最 大 生成 树 。 这 上 比 求解 最 小 生成 树 更 难 吗 ? 

求 出 图 9-85 中 图 的 所 有 的 割 点 。 指 出 深度 优先 生成 树 和 每 个 顶点 的 Num 和 Low 的 值 。 














图 9-84 用 于 练习 9. 15 的 图 图 9-85 练习 9.21 中 的 图 
证 明 查 找 制 点 的 算法 能 够 正常 运行 。 
a. 给 出 一 种 算法 ， 求 出 从 一 个 无 向 图 中 被 删除 后 使 所 得 的 图 是 无 圈 图 所 需要 的 最 小 的 边 数 。 


"b. 证 明 这 个 问题 对 有 向 图 是 NP- 完 全 的 。 


证 明 , 在 一 个 有 向 图 的 深度 优先 生成 森林 中 所 有 的 交叉 边 都 是 从 右 到 左 的 。 

给 出 一 种 算法 以 决定 在 一 个 有 向 图 的 深度 优先 生成 森林 中 的 一 条 边 (v，w) 是 否 是 树 、 背 向 边 、 交 
叉 边 或 前 向 边 。 

找 出 图 9-86 的 图 中 的 强 连通 分 支 。 

编写 一 个 程序 使 能 找 出 一 个 有 向 图 中 的 强 连 通 分 支 。 | 

给 出 一 种 算法 只 用 一 次 深度 优先 搜索 即 可 找 出 那些 强 连通 分 支 来 。 使 用 类 似 于 双 连 通 性 算法 的 算法 ， 
一 个 图 G 的 双 连 通 分 支 (biconnected components) 是 把 边 分 成 一 些 集合 的 划分 , 使 得 每 个 边 集 所 形 
成 的 图 是 双 连 通 的 。 修 改 图 9-69 中 的 算法 使 能 找 出 双 连 通 分支 而 不 是 割 点 。 

设 我 们 对 一 个 无 向 图 进行 广度 优先 搜索 (breadth-first search) 并 建立 一 棵 广度 优先 生成 树 ( breadth- 
first spanning tree) 。 证 明 该 树 所 有 的 边 或 者 是 树 边 或 者 是 交叉 边 。 

给 出 一 种 算法 ， 以 在 一 无 向 图 (连通 的 ) 中 找 出 一 条 路 径 使 其 在 每 个 方向 上 通过 每 条 边 恰好 一 次 。 
a 编写 一 个 程序 以 找 出 图 中 的 一 条 欧 拉 回路 ( 如果 存在 的 话 ) o 

b. 编写 一 个 程序 以 找 出 图 中 的 一 条 欧 拉 环 游 ( 如果 存 在 的 话 ) o 

有 问 图 中 的 欧 拉 回路 是 一 个 圈 , 该 圈 中 的 每 条 边 恰好 被 访问 一 次 。 


"a. 证 明 , 有 向 图 有 欧 拉 回 路 当 且 仅 当 它 是 强 连 通 的 并 且 每 个 顶点 的 人 度 等 于 出 度 。 


9. 34 


9. 35 


"b. 给 出 一 个 线性 时 间 算 法 ， 在 存在 欧 拉 回 路 的 有 向 图 中 找 出 一 条 欧 拉 回 路 。 


a. 考虑 欧 拉 回 路 问题 的 下 列 解法 : 假设 图 是 双 连 通 的 。 执 行 一 次 深度 优先 搜索 ,只 在 万 不 得 已 的 
时 候 使 用 背 向 边 。 如 果 图 不 是 双 连 通 的 , 则 对 双 连 通 分 支 递归 地 应 用 该 算法 。 这 个 算法 行 得 
通 吗 ? 

b. 设 当 用 到 背 向 边 时 我 们 取 用 连接 到 最 近 祖先 节点 的 背 向 边 , 那么 该 算法 是 否 行 得 通 ? 

平面 图 (planar graph) 是 可 以 画 在 一 个 平面 上 而 其 任何 两 条 边 都 不 相交 的 图 。 


"a. 证明 图 9-87 中 的 两 个 图 都 不 是 平面 图 。 


b. WEH, 在 平面 图 中 必然 存在 某 个 项 点 与 最 多 不 超过 5 个 顶点 相连 。 


"e 证 明 在 平面 图 中 [E | <3|V| -6. 


er DW 


图 9-86 练习 9. 26 中 所 使 用 的 图 图 9-87 练习 9.35 中 使 用 的 图 
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9. 36 


*9.37 


9, 38 


9. 39 


9. 40 


9.44 


9. 45 


9. 46 


9.48 


9. 49 


多 重 图 (multigraph) 是 在 其 内 的 顶点 对 之 间 可 以 有 多 重 边 (multiple edge) 的 图 。 本 章 中 哪些 算法 对 
于 多 重 图 不 用 修改 就 能 正确 运行 ”对 其 余 的 算法 需要 进行 哪些 修改 ? 
令 G=(V，E) 是 一 个 无 向 图 。 使 用 深度 优先 搜索 设计 一 个 线性 算法 把 6 的 每 条 边 转 换 成 有 向 边 
使 得 所 得 到 的 图 是 强 连 通 的 , 或 者 确定 这 是 不 可 能 的 。 
ote ASHE N BR. 它们 以 某 种 结构 相互 蚕 压 平 放 。 每 棵 棍 由 它 的 两 个 端点 确定 ; 每 个 端点 是 由 x、 
y 和 := 坐标 确定 的 有 序 三 元 组 ; 没有 棍 垂直 摆 放 。 一 棵 棍 仅 当 其 上 没有 其 他 棍 放 堵 时 可 以 取 走 。 
a_， 解 释 如 何 编写 一 个 例 程 接收 两 棵 棍 o 和 4b 并 报告 a 是否 在 6 上面 .5 下 面 , 或 是 与 无 关 。( 本 
问题 与 图 论 毫 无 关系 。) 
b。 给 出 一 个 算法 确定 是 否 能 够 取 走 所 有 的 棍 , 如 果 能 , 那么 提供 完成 这 项 工作 的 棍 拾 取 次 序 。 
如 果 一 个 图 的 每 个 顶点 都 可 以 给 定 上 种 颜色 之 一 , 并 且 没有 边 连 接 相同 颜色 的 顶点 。 则 称 该 图 是 
二 可 着 色 的 。 给 出 一 个 线性 时 间 算法 测试 图 的 2- 着色 性 。 假 设 图 以 缉 接 表 的 形式 存储 ,你 必须 指 
明 任何 所 需要 的 附加 的 数据 结构 。 
给 出 一 种 多 项 式 时 间 算法 , 使 在 任意 的 无 向 图 中 能 够 找 出 [ V2 1 个 顶点 , 这 些 顶 点 至 少 覆 盖 图 的 
3/4 的 边 。 
指出 如 何 修改 拓扑 排序 算法 使 得 如 果 图 不 是 无 圈 图 , 则 该 算法 将 显示 出 某 个 圈 来 。 可 以 不 用 深度 
优先 搜索 。 
令 6 为 一 有 向 图 , 该 图 有 N 个 顶点 。 如 果 对 了 中 每 一 个 顶点 A sé, 且 存在 边 (v, s) 但 是 不 存 
在 形 如 (s, v) 的 边 , 则 顶点 s 叫 作 收 点 (sink) 。 给 出 一 个 0( NN) 时 间 算 法 , 确定 G 是否 有 收 点 , 假 
设 6 由 NxN 邻接 矩阵 给 定 。 
当 把 一 个 顶点 和 与 它 关联 的 边 从 一 棵 树 中 除去 后 , 则 剩 下 一 些 子 树 。 给 出 一 个 线性 时 间 算法 , 使 
能 找 出 一 个 顶点 , 从 N 个 顶点 的 树 中 删除 该 顶点 将 不 会 留 下 多 于 N/2 个 顶点 的 子 树 。 
给 出 一 个 线性 时 间 算法 确定 无 圈 无 向 图 ( 即 树 ) 中 的 最 长 无 权 
KB. 
AE Nx N 网 格 。 网 格 中 一 些 方 格 由 黑色 圆 形 占据 。 若 两 个 方 
格 共享 一 条 边 , 则 它们 属于 同一 组 。 在 图 9-88 中 , 有 一 组 由 4 
个 黑 圆 占据 的 方 格 组 成 , 三 组 由 2 个 黑 圆 占据 的 方 格 组 成 , 两 
组 由 单个 黑 圆 占 据 的 方 格 组 成 。 假 设 网 格 由 二 维 数组 表示 。 
编写 一 个 程序 进行 下 列 工作 : 
a， 当 给 出 组 中 一 个 方 格 时 计算 该 组 的 大 小 。 
b. 计算 不 同 的 组 的 个 数 。 
c. 列 出 所 有 的 组 。 
本 书 8.7 节 描 述 了 迷宫 的 生成 。 设 我 们 想 要 输出 迷宫 中 的 路 
径 。 假 设 迷 宫 由 一 个 矩阵 表示 ; 矩阵 中 的 每 个 单元 存储 关于 墙 。 图 9-88 练习 9.45 中 的 网 格 
存在 (或 不 存在 ) 的 信息 。 
a 编写 一 个 程序 计算 输出 迷宫 中 路 径 的 足够 的 信息 。 以 SEN 代表 向 南 , 然后 向 东 , 然后 再 向 
Jt, 等 等 ) 的 形式 给 出 输出 结果 。 
b 编写 一 个 画 出 迷宫 程序 , 并 且 当 按 下 按钮 时 画 出 路 径 。 
设 迷 宫 中 的 墙 可 以 推倒 , 但 要 受罚 P 个 方块 。P 为 指定 给 算法 的 参数 (如 果 处 罚 是 0, 那么 问题 是 
平凡 的 ) 。 描 述 一 种 算法 解决 这 种 类 型 的 问题 。 你 的 算法 的 运行 时 间 是 多 少 ? 
设 迷宫 可 以 有 解 也 可 以 没有 解 。 
a. 描述 一 个 线性 时 间 算 法 , 该 算法 确定 为 了 建立 一 个 解 而 需要 推倒 的 墙 的 最 小 面 数 。( 提示: 用 
一 个 双 端 队列 ) 
b. 描述 一 种 算法 (不必 是 线性 的 ) , 该 算法 能 够 在 推倒 最 小 数目 的 墙 之 后 找到 最 短路 径 。 
注意 , 问题 a 的 解法 给 不 出 哪些 面 墙 最 好 被 推倒 的 信息 。( 提 示 : 使 用 练习 9. 47。) 
编写 一 个 程序 计算 其 单字 母 替 换取 值 为 1， 而 单字 母 添加 或 删除 取 值 > 0 的 词 梯 , 取 值 由 用 户 指 
定 。 在 9.3.6 节 末尾 提 到 , 这 实际 上 是 一 个 赋 权 最 短路 径 问 题 。 
解释 下 列 问题 ( 练习 9. 50 ~ 练习 9. 53) 应 用 最 短路 径 算法 如 何 能 够 解 出 。 然 后 设计 一 种 表示 
输出 的 办 法 , 并 编写 一 个 程序 求解 相应 的 问题 。 
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9.50 输入 是 一 组 联赛 成 绩 得 分 (没有 平局 ) 。 如 果 所 有 的 队 至 少 有 一 场 赢 和 一 场 输 , 那么 我 们 可 以 通 
过 思春 的 传递 性 论证 一 般 性 地 证 明 , 任 一 队 都 比 别 的 队 强 。 例 如 , 在 6 队 联赛 中 , 每 队 进 行 3 局 
比赛 , 设 有 下 列 结果 : A 胜 BE 和 5C;B 胜 C 和 F;C 胜 D;D 胜 E; 下 胜 A; 下 胜 D 和 E, 此 时 我 们 可 
以 证 明 A EE F oR, 因为 A 胜 B 而 B 又 胜 了 F。 类 似 地 , 我 们 还 可 以 证 明 F 比 A 强 , Dy F HEE ifj 
E 又 胜 了 A。 给 定 一 组 比赛 得 分 和 两 支 运动 队 X ALY, 要 么 找 出 一 个 证 明 ( 若 存在 的 话 )X EG Y 
强 , 要 么 指出 找 不 到 这 种 形式 的 证 明 。 

9.51 设 输入 为 一 组 货币 和 它们 的 兑换 率 。 是 否 存 在 一 种 兑换 顺序 能 够 立刻 赚 到 钱 ? 例如 , 货币 是 工 , 
YAZ, 兑换 率 为 1 了 等 于 27，1L7 等 于 2Z, 而 1X 等 于 3Z。 此 时 , 3007 将 买 到 100X, 而 100X 又 
能 买 到 200Y, 而 后 者 将 换 到 400Z。 这 样 , 我们 就 得 到 3396 的 收益 。 

9.52 一 名 学 生 需 要 选修 一 定量 的 课程 才 可 获得 学 位 , 而 课程 的 选取 必须 遵守 选修 顺序 。 假 设 每 个 学 期 
都 提供 所 有 的 课程 , 并 设 学 生 可 以 选修 无 限 多 门 课 程 。 给 定 提供 的 课程 表 和 它们 的 先 修 课 , 计算 
出 需要 最 少 学 期 数 的 课程 表 。 

9.53 Kevin Bacon 游戏 的 目标 是 通过 一 些 分 享 的 电影 角色 把 电影 演员 和 Kevin Bacon 链接 起 来 。 链 接 的 
最 小 数目 为 演员 的 Bacon 数 。 例 如 ，Tom Hanks 的 Bacon 数 为 1; 他 在 Apollo 13 中 与 Kevin Bacon 
分 享 角色 。Sally Field 的 Bacon 数 是 2, 因为 她 在 电影 Forrest Gump 中 与 Tom Hanks 分 享 角 色 ， 而 
后 者 又 在 电影 Apollo 13 中 与 Kevin Bacon 分 享 角 色 。 几 乎 所 有 著名 演员 的 Bacon 数 都 是 1 或 者 2， 
假设 你 有 一 个 广泛 的 演员 表 , 包含 他 们 所 演 的 角色 “”， 完 成 下 列 工作 : 

a 解释 如 何 查 找 演员 的 Bacon 数 。 
b. 解释 如 何 查找 具有 最 高 Bacon 数 的 演员 。 
c. 解释 如 何 查找 任意 两 个 演员 之 间 的 最 小 链接 次 数 。 

9.54 团 问 题 (clique problem) 可 以 叙述 如 下 : 给 定 无 向 图 G=(V, E) 和 一 个 整数 所 ，C 包含 最 少 人 个 项 
点 的 完全 子 图 吗 ? - 
顶点 覆盖 问题 (vertex cover problem) 可 以 叙述 如 下 : 给 定 无 向 图 G=(V, E) fl — T EX K, CRA 
包含 一 个 子 集 V'CV 使 得 |V' | <K 并 且 C 的 每 条 边 都 有 一 个 项 点 在 多 中 ? 证 明 团 问 题 可 以 多 项 
式 地 归 约 成 项 点 覆盖 问题 。 

9.55 设 哈密 尔 顿 圈 问 题 对 无 向 图 是 NP- 完 全 的 。 

a. 证 明 哈 密 尔 顿 圈 问 题 对 有 向 图 也 是 NP- 完 全 的 。 
b. 证 明 无 权 简单 最 长 路 径 问题 对 有 向 图 是 NP- 完 全 的 。 

9.56 棒球 卡 收藏 家 问题 (baseball card collector problem) 如 下 : 给 定 卡片 包 P,, Pr, ，…，P 忆 以 及 一 个 整 
数 天 ,其 中 每 个 包 包含 年 度 棒 球 卡 的 一 个 子 集 , 问 是 否 可 能 通过 选择 小 于 或 等 于 大 个 包 而 搜集 到 

， 所 有 的 棒球 卡 ? 证 明 棒球 卡 收藏 家 问题 是 NP- 完 全 的 。 
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H2] 9.35 处 理 平面 图 , "ORCI SCR PTT ESE ERIT. 许多 国难 问题 以 平面 图 的 方式 处 
理会 更 容易 。 有 一 个 例子 是 图 的 同 构 问题 , 对 于 平面 图 它 是 线性 时 间 可 解 的 [29] 。 对 于 一 般 的 图 , 尚 不 
知 有 多 项 式 时 间 算法 。 
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迄今 我 们 已 经 涉及 一 些 算法 的 有 效 实现 。 我 们 看 到 , 当 一 个 算法 给 定时 , 具体 的 数据 结构 
无 需 指定 。 为 使 运行 时 间 尽 可 能 地 少 , 需要 由 编程 人 员 来 选择 适当 的 数据 结构 。 

本 章 将 把 注意 力 从 算法 的 实现 转向 算法 的 设计 。 到 现在 为 止 , 我 们 已 经 看 到 的 大 部 分 算法 
都 是 直接 且 简单 的 。 第 9 章 包含 的 一 些 算法 要 深奥 得 多 , 有 些 需 要 (在 有 些 情形 下 很 长 的 ) 论 证 
以 证 明 它们 确实 是 正确 的 。 在 这 一 章 , 我 们 将 集中 讨论 用 于 求解 问题 的 五 种 通常 类 型 的 算法 
对 于 许多 问题 , 很 可 能 这 些 方法 中 至 少 有 一 种 方法 是 可 以 解决 问题 的 。 特 别 地 , 对 于 每 种 类 型 
的 算法 我 们 将 

e 了 解 一 般 的 处 理 方法 。 

e 考查 几 个 例子 ( 本章 末 尾 的 练习 提供 了 更 多 的 例子 )。 

e 在 适当 的 地 方 概括 地 讨论 时 间 和 空间 复杂 性 。 


10.1 贪 禁 算法 


我 们 将 要 考查 的 第 一 种 类 型 的 算法 是 贪 梦 算法 (greedy algorithm) 。 在 第 9 章 我 们 已 经 看 到 
三 个 贪 焚 算 法 : Dijkstra 算法 、Prim 算法 和 Kruskal 算法 。 贪 焚 算 法 分 阶段 地 工作 。 在 每 一 个 阶 
Be, 可 以 认为 所 做 决定 是 好 的 , 而 不 考虑 将 来 的 后 果 。 通 常 , 这 意味 着 选择 的 是 某 个 局 部 最 优 . 
这 种 “眼下 能 够 拿 到 的 就 拿 ”的 策略 是 这 类 算法 名 称 的 来 源 。 当 算法 终止 时 , 我 们 希望 局 部 最 
优等 于 全 局 最 优 。 如 果 是 这 样 的 话 , 那么 算法 就 是 正确 的 ; 否则 , 算法 得 到 的 是 一 个 次 最 优 解 
(suboptimal solution) 。 如 果 不 要 求 绝对 最 佳 答 案 , 那么 有 时 使 用 简单 的 贪 禁 算 法 生成 近似 的 答 
案 , 而 不 是 使 用 通常 产生 准确 答案 所 需要 的 复杂 算法 。 

有 几 个 现实 的 贪 禁 算法 的 例子 。 最 明显 的 是 辅币 找 零钱 问题 。 要 使 用 美国 货币 找 零钱 , 我 
们 重复 地 配 发 最 大 额 货币 。 于 是 , 为 了 找 出 十 七 美元 六 十 一 美 分 的 零钱 , 我 们 拿 出 一 张 十 美元 
钞 , 一 张 五 美元 钞 , 两 张 一 美 元 钞 , 两 个 二 十 五 分 币 , 一 个 十 分 币 , 以 及 一 个 分 币 。 这 么 做 , 我 
们 保证 使 用 最 少 的 钞票 和 硬币 。 这 个 算法 不 是 对 所 有 的 货币 系统 都 行 得 通 , 但 幸运 的 是 , 我 们 
可 以 证 明 它 对 美国 货币 系统 是 正确 的 。 事实 上 , 即使 允许 使 用 两 美元 钞 和 五 十 美 分 币 该 算法 仍 
然 是 可 行 的 。 

交通 问题 有 一 个 例子 , 在 这 个 例子 中 , 进行 局 部 最 优选 择 不 总 是 行 得 通 的。 例如 , 在 迈 阿 
密 的 某 些 交通 高 峰 期 间 ， 即 使 一 些 主 要 马路 看 起 来 空荡荡 的 , 你 最 好 还 是 把 车 停 在 这 些 街 道 以 
Sh, 因为 交通 将 会 沿 着 马路 阻塞 一 英里 长 , 你 也 就 被 墙 在 那里 动弹 不 得 。 有 时 其 至 更 糟 , 为 了 
回避 所 有 的 交通 瓶颈 ,最 好 是 朝 着 你 的 目的 地 相反 的 方向 临时 绕道 行驶 。 

本 节 其 余部 分 将 考查 几 个 使 用 贪 禁 算法 的 应 用 。 第 一 个 应 用 是 简单 的 调度 问题 。 实 际 上 ， 
所 有 的 调度 问题 或 者 是 NP- 完 全 的 (或 属于 类 似 的 难度 ) , 或 者 是 贪 禁 算 法 可 解 的 。 第 二 个 应 用 
处 理 文件 压缩 , 它 是 计算 机 科学 最 早 的 成 果 之 一 。 最 后 , 我 们 将 介绍 一 个 贪 禁 近 似 算法 的 例子 。 
10. 1.1 一 个 简单 的 调度 问题 

今 有 作业 六, h, s jn, 已 知 对 应 的 运行 时 间 分 别 为 ，t,，…，in， 而 处 理 器 只 有 一 个 。 
为 了 把 作业 平均 完成 的 时 间 最 小 化 , 调度 这 些 作业 最 好 的 方式 是 什么 ”整个 这 一 节 我 们 将 假设 
非 预 占 调度 (nonpreemptive scheduling) : 一 旦 开始 一 个 作业 , 就 必须 把 该 作业 运行 到 完成 。 

作为 一 个 例子 , 设 我 们 有 四 个 作业 和 相关 的 运行 时 间 如 图 10-1 所 示 。 一 个 可 能 的 调度 在 
图 10-2 中 指出 。 因 为 六 用 15 个 时 间 单 位 运行 结束 , 疡 用 23 ,六 用 26， 而 六 用 36, 所 以 平均 完 
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成 时 间 为 25 。 一 个 更 好 的 调度 由 图 10-3 表示 , 它 产生 的 平均 完成 时 间 为 17. 75。 




















h h | Ji A 
0 15 23 26 36 0 3 11 21 36 
图 10-1 作业 和 时 间 图 10-2 1 号 调度 图 10-3 2 号 调度 (最 优 ) 
图 10-3 给 出 的 调度 是 按照 最 短 的 作业 最 先进 行 来 安排 的 。 我 们 可 以 证 明 这 将 总 会 产生 一 
个 最 优 的 调度 。 令 调度 表 中 的 作业 是 疡 , us cns 六。 第 一 个 作业 以 时 间 冯 完成 。 第 二 个 作业 在 
t, +4 后 完成 而 第 三 个 作业 在 1 +t, +4 后 完成 。 由 此 得 到 , 该 调度 总 的 代价 习 为: i 








C= Y(N-k410)t, (10.1) 
C=(N+1) 04, kt (10. 2) 


注意 , 在 方程 (10.2) 中 第 一 个 和 与 作业 的 排序 无 关 , 因此 只 有 第 二 个 和 影响 到 总 开销 。 设 
在 一 个 排序 中 存在 某 个 x >y (EIF t <t;。 此 时 , 计算 表明 , 交换 j; 和 j;, 第 二 个 和 增加 ,从 而 降 
低 了 总 的 开销 。 因 此 , 所 用 时 间 不 是 单调 非 减 的 任何 的 作业 调度 必然 是 次 最 优 的 。 剩 下 的 只 有 
那些 其 作业 按照 最 小 运行 时 间 最 先 安排 的 调度 才 是 所 有 调度 方案 中 最 优 的 。 

这 个 结果 指出 操作 系统 调度 程序 一 般 把 优先 权 赋 予 那些 更 短 的 作业 的 原因 。 

多 处 理 器 的 情况 

我 们 可 以 把 这 个 问题 扩展 到 多 个 处 理 器 的 情形 。 我 们 还 是 有 作 作业 时 间 
MEA. dos rs dvs 对 应 的 运行 时 间 分 别 为 4 ，t，…， ty, DAAM 
器 的 个 数 P。 不 失 一 般 性 , 我 们 将 假设 作业 是 有 序 的 , 最 短 的 运 
行 时 间 最 先 处 理 。 例 如 , UE P -3, 而 作业 如 图 10-4 所 示 。 

图 10-5 显示 一 个 最 优 的 安排 , 它 把 平均 完成 时 间 优 化 到 最 
小 。 作业 六 ». d I j, 在 处 理 器 1 上 运行 。 处 理 器 2 处 理 作业 j， Js 
和 ,而 处 理 器 3 运行 其 余 的 作业 。 总 的 完成 时 间 为 165, 平均 是 
165 
9 718.33, 图 10-4 “作业 和 时 间 

解决 多 处 理 器 情形 的 算法 是 按 顺序 开始 作业 ,处 理 器 之 间 轮 换 分 配 作 业 。 不 难 证 明 没 有 哪 
个 其 他 的 顺序 能 够 做 得 更 好 , 虽然 处 理 器 个 数 P 能 够 整除 作业 数 N 时 存在 许多 最 优 的 顺序 。 对 
于 每 一 个 0<i<N/P, 把 从 六 ,直到 jn 的 每 一 个 作业 放 到 不 同 的 处 理 器 上 , 可 以 得 到 这 样 的 
最 优 顺序 。 在 该 例 中 , 图 10-6 指出 了 第 二 个 最 优 解 。 








h 3 


























0 3 56 13 16 20 28 34 40 0 356 14 15 20 30 34 38 
图 10-5 多 处 理 器 情形 的 一 个 最 优 解 图 10-6 多 处 理 器 情形 的 第 二 个 最 优 解 

即使 P 不 恰好 整除 N, 哪怕 所 有 的 作业 时 间 是 互 异 的 , 还 是 仍然 能 够 有 许多 最 优 解 。 我 们 
把 进一步 的 考查 留 做 练习 。 

将 最 后 完成 时 间 最 小 化 

在 本 小 节 最 后 , 考虑 一 个 非常 类 似 的 问题 。 假 设 我 们 只 关注 最 后 的 作业 的 结束 时 间 。 在 上 
面 的 两 个 例子 中 , 它们 的 完成 时 间 分 别 是 40 和 38。 图 10-7 指出 最 小 的 最 后 完成 时 间 是 34, 而 
这 个 结果 显然 不 能 再 改进 了 ,因为 每 一 个 处 理 器 都 在 一 直 处 于 繁忙 状态 。 
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虽然 这 个 调度 没有 最 小 平均 完成 时 间 , 但 是 它 有 一 个 优点 , 即 整个 序列 的 完成 时 间 更 早 。 如 
果 同 一 个 用 户 拥 有 所 有 这 些 作 业 , 那么 该 调度 是 更 可 取 的 调度 方法 。 虽 然 这 些 问题 非常 相似 , 但 
是 这 个 新 间 题 实际 上 是 NP- 完 全 的 ; 它 恰 是 背包 问题 或 装 箱 问题 的 男 一 种 表述 方式 , 在 本 节 后 面 我 
们 还 将 遇 到 它 。 因 此 , 将 最 后 完成 时 间 最 小 化 显然 要 比 把 平均 完成 时 间 最 小 化 困难 得 多 。 
10.1.2 哈 夫 曼 编码 

在 这 一 节 , 我 们 考虑 贪 禁 算法 的 第 二 个 应 用 , 称 为 文件 压缩 (file compression ) 。 

标准 的 ASCI 字符 集 大 约 由 100 个 “可 打印 ”字符 组 成 。 为 了 把 这 些 字符 区 分 开 来 , 需要 
[log 100 1=7 比特 。 但 7 比特 可 以 表示 128 个 字符 , 因此 ASCI 字符 还 可 以 再 加 上 一 些 其 他 的 
"dETTED" "EF. 我们 加 上 第 8 个 比特 位 作为 奇偶 校 验 位 。 然 而 , 重要 的 问题 在 于 , 如 果 字 符 集 
的 大 小 是 C, 那么 在 标准 的 编码 中 就 需要 | log C | 个 比特 。 

设 我 们 有 一 个 文件 , ERG TTE a, e, i, s, t, 加 上 一 些 空格 和 newline( 换行 )。 进 一 步 
设 该 文件 有 有 10 个 a、15 个 e、12 个 i.3 个 s、4 个 4、13 个 空格 以 及 一 个 newline。 如 图 10-=8 中 的 























图 10-7 将 最 后 完成 时 间 最 小 化 图 10-8 “使 用 一 个 标准 编码 方案 


在 现实 中 , 文件 可 能 是 相当 大 的 。 许 多 非常 大 的 文件 是 某 个 程序 的 输出 数据 , 而 在 使 用 频 
率 最 大 和 最 小 的 字符 之 间 通 常 存 在 很 大 的 差别 。 例 如 , 许多 巨大 的 文件 都 含有 大 量 的 数字 、 空 
HAFI newline, 但 是 g Al x 却 很 少 。 如 果 我 们 在 慢 速 的 电话 线 上 传输 这 些 信息 ,那么 就 会 希望 减 
少 文 件 的 大 小 。 还 有 , 由 于 实际 上 每 一 台 机 器 上 的 磁盘 空间 都 是 非常 珍贵 的 , 因此 人 们 就 会 想 
到 是 否 有 可 能 提供 一 种 更 好 的 编码 以 降低 总 的 所 需 比 特 数 。 
答案 是 肯定 的 , 一 种 简单 的 策略 可 以 使 典型 的 大 型 文件 节省 25% ,而 使 许多 大 型 的 数据 文 
件 节省 多 达 50% ~60% 。 这 种 一 般 的 策略 就 是 让 代码 的 长 度 从 字符 到 字符 是 变化 不 等 的 , 同时 
保证 经 常 出 现 的 字符 其 代码 要 短 。 注 意 , 如 果 所 有 的 字符 都 以 相同 的 频率 出 现 , 那么 节省 的 问 
题 是 不 可 能 存在 的 。 
代表 字母 的 二 进 制 代 码 可 以 用 二 又 树 来 表示 , 如 图 10-9 所 示 。 
图 10-9 中 的 树 只 在 树叶 上 有 数据 。 每 个 字符 通过 从 根 节点 开始 用 0 指示 左 分 支 用 1 指示 右 
分 支 而 以 记录 路 径 的 方法 表示 出 来 。 例 如 , s 通过 从 根 向 左 走 , 然后 向 右 , 最 后 再 向 右 而 达到 ， 
于 是 它 被 编码 成 011。 这 种 数据 结构 有 时 叫 作 trie 树 (trie) 。 如 果 字 符 c; ERIE d, 处 并 且 出 现 / 
K, 那么 这 种 编码 的 值 ( cost) WEF E dfo 
一 种 比 图 10-9 给 出 的 代码 更 好 的 代码 可 以 利用 newline ( 换行 )( 它 是 一 个 仅 有 的 儿子 ) 而 得 
到 。 通 过 把 newline 符号 放 到 其 更 高 一 层 的 父 节 点 上 , 得 到 图 10-10 中 的 新 树 。 这 棵 新 树 的 值 是 
173, 但 该 值 仍然 没有 达到 最 优 。 
O 
Q () 
Q Q () 
aj 00 © © mY 
其 中 ，sp 代表 space, nl 代表 newline 





图 10-9 树 中 原始 代码 的 表示 法 图 10-10 稍微 好 一 些 的 树 
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注意 , 图 10-10 中 的 树 是 一 棵 满 树 (full tree) : 所 有 的 节点 要 么 是 树叶 , 要 么 有 两 个 儿子 。 
一 种 最 优 的 编码 将 总 具有 这 个 性 质 ， 否 则 , 正如 我 们 已 经 看 到 的 , 具有 一 个 儿子 的 节点 可 以 向 
上 移动 一 层 。 

如 果 字 符 都 只 放 在 树叶 上 , 那么 任何 比特 序列 总 能 够 被 毫 不 含糊 地 译 码 。 例 如 , 设 编码 串 
1 0100111100010110001000111. 0 不 是 字符 代码 , 01 也 不 是 字符 代码 , 但 010 是 i, 于 是 第 一 个 
字符 是 i。 然 后 跟着 的 是 011, 它 是 字符 *。 其 后 的 11 是 newline。 剩 下 的 代码 分 别 是 a, space, t, 
i, e Ail newline, A, 这 些 字符 代码 的 长 度 是 否 不 同 并 不 要 紧 , 关键 是 只 要 没有 字符 代码 是 别 
的 字符 代码 的 前 缀 就行。 这样 一 种 编码 叫 作 前 缀 码 ( prefix code) 。 相 反 , 如 果 一 个 字符 放 在 非 
树叶 节点 上 , 那 就 不 再 能 够 保证 译 码 没有 二 义 性 。 

综 上 所 述 , 基本 的 问题 在 于 找到 总 价值 最 小 (如 上 定义 的 ) 的 满 二 又 树 ， 其 中 所 有 的 字符 都 
位 于 树叶 上 。 图 10-11 中 的 树 显示 该 例 样 本 字母 表 的 最 优 树 。 从 图 10-12 可 以 看 到 , 这 种 编码 
只 用 了 146 比特 。 

















字符 编码 频率 比特 数 | 
a 001 10 30 i 
e 01 15 30 
i 10 12 24 
s 00 000 3 15 
t 0001 4 16 
( 空格 IT 13 26 
CY newline 00 001 1 5 
GÍ ® 总 计 146 
图 10-11 最 优 前 级 码 图 10-12 最 优 前 级 码 


TERR, 这 里 存在 许多 的 最 优 编码 。 这 些 编码 可 以 通过 交换 编码 树 中 的 儿子 节点 得 到 。 此 
时 , 主要 未 解决 的 问题 是 如 何 构 造 编 码 树 。1952 年 Huffman 给 出 了 一 个 算法 。 因 此 , 这 种 编码 
系统 通常 称 为 哈 夫 曼 编码 (Hufman code) 。 

哈 夫 曼 算法 

本 小 节 我 们 将 假设 字符 的 个 数 为 C。 哈 夫 曼 算法 ( Huffman*s algorithm) 可 以 描述 如 下 : 算法 
对 由 树 组 成 的 一 个 森林 进行 。 一 棵 树 的 权 等 于 它 的 树叶 的 频率 的 和 。 任 意 选取 最 小 权 的 两 棵 树 
T, Wl T, , 并 任意 形成 以 7 和 7 为 子 树 的 新 树 , 将 这 样 的 过 程 进 行 C-1 次 。 在 算法 的 开始 , FF 
在 C 棵 单 节点 树 一 一 每 个 字符 一 棵 。 在 算法 结束 时 得 到 一 棵 树 , 这 棵 树 就 是 最 优 哈 夫 曼 
编码 树 。 

我 们 通过 一 个 具体 例子 来 理解 算法 的 操作 。 图 10-13 表示 的 是 初始 的 森林 , 每 棵 树 的 权 在 
根 处 以 小 号 数字 标 出 。 将 两 棵 权 最 低 的 树 合并 到 一 起 , 由 此 建立 了 图 10-14 中 的 森林 。 我 们 将 
新 的 根 命名 为 四, 这样 使 得 进一步 的 合并 可 以 确切 无 误 地 表述 。 图 中 令 s 是 左 儿子 ,这 里 , > 
其 为 左 儿 子 还 是 右 儿子 是 任意 的 ; 注意 可 以 使 用 哈 夫 曼 算法 描述 中 两 个 任意 性 。 新 树 的 总 权 正 
是 那些 老 树 的 权 的 和 ,当然 也 就 很 容易 计算 。 由 于 建立 新 树 只 需 得 出 一 个 新 节点 ,建立 左 链接 
和 右 链 接 并 把 权 记 录 下 来 , 因此 创建 新 树 很 简单 。 


(riy 
(a) (e a) (s) O) Gp (nl) (a) (e O (y Gp 
K 10-13 哈 夫 曼 算法 的 初始 状态 图 10-14 第 一 次 合并 后 的 哈 夫 曼 算法 


现在 有 6 RAIL, 我 们 再 选取 两 棵 权 最 小 的 树 。 这 两 棵 树 是 TERI t, 然后 将 它们 合并 成 一 棵 
新 树 , 树 根 在 T2, BUE S, 见 图 10-15。 第 三 步 将 2 和 a 合并 建立 73, 其 权 为 10 +8 =18。 
图 10-16 显示 这 次 操作 的 结果 。 
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; Ec) 
A AX © 
10 15 12 13 "a ©) 15 12 13 pos © 
«e 00 @ 四 © © © @ 
图 10-15 第 二 次 合并 后 的 喻 夫 曼 算法 图 10-16 第 三 次 合并 后 的 哈 夫 曼 算法 


在 第 三 次 合并 完成 后 , 最 低 权 的 两 棵 树 是 代表 i 和 空格 的 两 个 单 节点 树 。 图 10-17 指出 这 
两 棵 树 如 何 合并 成 根 在 74 的 新 树 。 第 五 步 合 并 根 为 e 和 T3 WR, 因为 这 两 棵 树 的 权 最 小 。 该 
步 结 果 如 图 10-18 所 示 。 


e Gr 
. A © A O 
15 EN £0 © oy a 
© 过 ©) gag 
K 10-17 第 四 次 合并 后 的 哈 夫 曼 算法 图 10-18 第 五 次 合并 后 的 哈 夫 曼 算 法 


最 后 , 将 两 个 剩 下 的 树 合并 得 到 图 10-11 所 示 的 最 优 树 。 图 10-19 画 出 这 棵 最 优 树 , 其 根 在 76。 
我 们 将 概述 哈 夫 曼 算法 产生 最 优 代码 的 证 明 思路 ， a 
详细 的 细节 将 留 作 练习 。 首 先 ; 由 反 证 法 不 难 证 明 树 必 JC 8 
REW, 因为 我 们 已 经 看 到 如 何 将 一 棵 不 满 的 树 改进 Y Oe 


成 满 的 树 。 c 

其 次 , 必须 证 明 两 个 频率 最 小 的 字符 a 和 有 必然 是 GY a) 
两 个 最 深 的 节点 (虽然 其 他 节点 可 以 同样 地 深 ) 。 这 通过 
反 证 法 同样 容易 证 明 , 因为 如 果 w 或 B 不 是 最 深 的 节点 ， 图 !0-19 最 后 一 次 合并 后 的 哈 夫 曼 算法 
那么 必然 存在 某 个 y 是 最 深 的 节点 ( 记 住 树 是 满 的 ) 。 如 果 a 的 频率 小 于 y, 那么 我 们 可 以 通过 
交换 它们 在 树 中 的 位 置 而 改进 权 的 值 。 

然后 可 以 论证 , 在 相同 深度 上 任意 两 个 节点 处 的 字符 可 以 交换 而 不 影响 最 优 性 。 这 说 明 , 总 
可 以 找到 一 棵 最 优 树 , 它 含有 两 个 最 不 经 常 出 现 的 符号 作为 兄弟 ; 因此 第 一 步 没 有 错 , 是 成 立 的 。 

证 明 可 以 通过 归纳 法 论证 完成 。 当 树 被 合并 时 , 我 们 认为 新 的 字符 集 是 在 根 的 字符 上 。 于 
E, 在 例子 中 , 经 过 四 次 合并 以 后 , 我 们 可 以 把 字符 集 看 成 由 e 与 元 字符 73 和 74 AUR. BORE 
是 证 明 最 巧妙 的 部 分 , 我 们 要 求 读者 补足 所 有 的 细节 。 

该 算法 是 贪 楚 算 法 的 原因 在 于 , 在 每 一 阶段 我 们 都 进行 一 次 合并 而 没有 进行 全 局 的 考虑 。 
我 们 只 是 选择 两 棵 最 小 的 树 。 

如 果 我 们 依 权 排序 将 这 些 树 保存 在 一 个 优先 队列 中 , 那么 , 由 于 在 绝 不 会 有 超过 C 个 元 素 
的 优先 队列 上 将 进行 一 次 buildHeap, 2C-2 次 aeleteMin,， 和 C-2 次 insert, 因此 运行 
时 间 为 0(C logC) ,车 使 用 一 个 链表 简单 实现 该 队列 , 则 将 给 出 一 个 0(C?) 算 法 。 优 先 队列 实现 
方法 的 选择 取决 于 CHEK E ASCH 字符 集 的 典型 情况 下 , C 是 足够 小 的 , 这 使 得 二 次 的 运 
行 时 间 是 可 以 接受 的 。 在 这 样 的 应 用 中 , 实际 上 所 有 的 运行 时 间 都 将 花费 在 读 取 输 入 文件 和 写 
入 压缩 文件 所 需要 的 磁盘 1/O Eo 

有 两 个 细节 必须 要 考虑 。 首 先 , 在 压缩 文件 的 开头 必须 要 传送 编码 信息 , 否则 将 不 可 能 译 
码 。 做 这 件 事 有 几 种 方法 ， 见 练习 10.4。 对 于 一 些小 文件 , 传送 编码 信息 表 的 代价 将 超过 压缩 
中 任何 可 能 的 节省 , 最 后 的 结果 很 可 能 是 文件 扩大 。 当 然 , 这 可 以 检测 到 且 原 文件 可 原样 保留 。 
对 于 大 型 文件 , 信息 表 的 大 小 是 无 关 紧要 的 。 

第 二 个 问题 正如 所 描述 的 , 该 算法 是 一 个 两 趟 扫描 算法 。 第 一 趟 搜集 频率 数据 , 第 二 趟 进 
行 编码 。 显 然 , 对 于 处 理 大 型 文件 的 程序 来 说 这 个 性 质 不 是 我 们 所 希望 的 。 另 外 的 一 些 做 法 在 
参考 文献 中 做 了 介绍 。 
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10.1.3 ”近似 装 箱 问题 

在 这 一 节 , 我 们 将 考虑 某 些 解决 装 箱 问 题 (bin packing problem) 的 算法 。 这 些 算法 将 运行 得 
很 快 , 但 未 必 产 生 最 优 解 。 然 而 , 我 们 将 证 明 所 产生 的 解 距 最 优 解 不 太 远 。 

设 给 定 入 项 物品 , 大 小 为 5,，s,，…，s、s， 所 有 的 大 小 都 满足 0 «s 1, 问题 是 要 把 这 些 物 
品 装 到 最 小 数目 的 箱子 中 去 , 已 知 每 个 箱子 的 容量 是 一 个 单位 。 
作为 例子 , 图 10-20 显示 把 大 小 为 0.2, 0.5, 0.4, 0.7, 0.1, 0.3, 
0. 8 的 一 列 物品 最 优 装 箱 的 方法 。 

有 了 两 种 版 本 的 装 箱 问 题 。 第 一 种 是 联机 装 箱 问题 (on- line 
bin packing problem) 。 在 这 种 问题 中 , 每 一 件 物品 必须 放 入 一 个 
箱子 之 后 才能 处 理 下 一 件 物品 。 第 二 种 是 脱 机 装 箱 问 题 (off- line 
bin packing problem) 。 在 一 个 脱 机 装 箱 算 法 中 ,我 们 做 任何 事 都 图 10-20 acre t 
需要 等 到 所 有 的 输入 数据 全 被 读 取 之 后 才 进 行 。 联 机 算法 和 脱 的 最 优 装 箱 
机 算法 之 间 的 区 别 在 8. 2 节 讨 论 过 。 

联机 算法 

需要 考虑 的 第 一 个 问题 是 , 一 个 联机 算法 即使 在 允许 无 限 计 算 的 情况 下 是 否 实际 上 总 能 给 
出 最 优 的 解 。 我 们 知道 , 即使 允许 无 限 计 算 , 联机 算法 也 必须 先 放 入 一 项 物品 然后 才能 处 理 下 
一 件 物品 并 且 不 能 改变 决定 。 

为 了 证 明 联 机 算法 不 总 能 够 给 出 最 优 解 , 我 们 将 给 它 一 组 特别 难 的 数据 来 处 理 。 考 虑 由 权 
> -e i M 个 小 项 和 其 后 权 为 了 + e 的 MM 个 大 项 构成 的 序列 人 ,其 中 0 <e < 0.01。 显 然 ， 


如 果 我 们 在 每 个 箱子 中 放 一 个 小 项 再 放 一 个 大 项 , 那么 这 些 项 物品 可 以 放 人 到 M 个 箱子 中 去 。 
假设 存在 一 个 最 优 联 机 算法 4 可 以 进行 这 项 装 箱 工作 。 考 虑 算法 A 对 序列 L 的 操作 , 该 序列 只 


由 权 为 -的 以 个 小 项 组 成 。 是 可 以 装 入 [ M/2 | 个 箱子 中 的 。 然 而 , 由 于 4 对 序列 L, 的 处 


理 结果 必然 和 对 /的 前 半 部 分 处 理 结果 相同 ,而 前 半 部 分 的 输入 跟 的 输入 完全 相同 ,因此 
A 将 把 每 一 项 物品 放 到 一 个 单独 的 箱子 内 。 这 说 明 4 将 使 用 /最 优 解 的 两 售 多 的 箱子 。 这 样 我 
们 证 明了 ,对 于 联机 装 箱 问题 不 存在 最 优 算法 。 

上 面 的 论述 指出 ,联机 算法 从 不 知道 输入 何 时 会 结束 , 因此 它 提供 的 任何 性 能 保证 必须 在 
整个 算法 的 每 一 时 刻 成 立 。 如 果 我 们 遵循 前 面 的 策略 , 那么 我 们 可 以 证 明 下 列 定 理 。 

定理 10. 1 “存在 使 得 任意 联机 装 箱 算法 至 少 使 用 3 最 优 箱子 数 的 输入 。 

WEBB:  - 

假设 情况 相反 , 为 简单 起 见 并 设 M 是 偶数 。 考 虑 任 一 运行 在 上 面 输入 序列 上 上 的 联机 算法 
A. ERE, 该 序列 由 M 个 小 项 后 接 M 个 大 项 组 成 。 让 我 们 考虑 该 算法 在 处 理 第 MW 项 后 都 做 了 什 
么 。 设 4 已 经 用 了 1 个 箱子 。 在 算法 的 这 一 时 刻 ,箱子 的 最 优 个 数 是 M/2， 因 为 我 们 可 以 在 每 
个 箱子 里 放 入 两 件 物品 。 于 是 我 们 知道 ,根据 优 于 3 的 性 能 保证 的 假设 ,20M <$. 

现在 考虑 在 所 有 的 物品 都 被 装 箱 后 算法 4 的 性 能 。 在 第 个 箱子 之 后 开辟 的 所 有 箱子 的 每 
箱 恰好 包含 一 项 物品 ,因为 所 有 小 物品 都 被 放 在 了 前 4 个 箱子 中 , 而 两 个 大 项 物品 又 装 不 进 一 ” 0] 
个 箱子 中 去 。 由 于 前 个 箱子 每 箱 最 多 能 有 两 项 物品 ， 而 其 余 的 箱子 每 箱 都 有 一 项 物品 , 因此 
我 们 看 到 , 将 24 RARE HEREIN - 个 箱子 。 但 24 顶 物品 可 以 用 M METRI 


fi. 因此 我 们 的 性 能 保障 保证 得 到 (2M - b)/M <4, 





第 一 个 不 等 式 意味 着 5/M < 了 ,而 第 二 个 不 等 式 意味 着 M> F, 这 是 矛盾 的 。 因 此 , Be 
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有 联机 算法 能 够 保证 使 用 小 于 3 的 最 优 装 箱 数 完成 装 箱 。 o 


有 三 种 简单 算法 保证 所 用 的 箱子 数 不 多 于 二 倍 的 最 优 装 箱 数 。 也 有 颇 多 更 为 复杂 的 算法 能 
够 得 到 更 好 的 结果 。 

下 项 适合 算法 

大 概 最 简单 的 算法 就 属 下 项 适合 (next fit) 算 法 了 。 当 处 理 任 何 一 项 物品 时 , 我 们 检查 看 它 
是 否 还 能 装 进 刚刚 装 进 物品 的 同一 个 箱子 中 去 。 如 果 能 够 装 进去 , 那么 就 把 它 放 入 该 箱 中 ; 否 
TU, 就 开辟 一 个 新 的 箱子 。 这 个 算法 实现 起 来 出 奇 地 简单 ,而 且 还 以 线性 时 间 运 行 。 图 10-21 
显示 与 图 10-20 相同 的 输入 所 得 到 的 装 箱 过 程 。 

下 项 适合 算法 不 仅 编程 简单 , 而且 它 的 最 坏 情形 的 行为 也 容易 分 析 。 

定理 10.2 令 必 是 将 一 列 物 品 1 装 箱 所 需 的 最 优 装 箱 数 , 则 下 项 适合 算法 所 用 箱 数 决 不 
超过 2M 个 箱子 。 存 在 一 些 顺序 使 得 下 项 适合 算法 用 箱 数 达 2M -2 个。 - 

WERA: 

25 EE fa FRA PAB 和 B;,,。B; 和 B;,, 中 所 有 物品 的 大 小 之 和 必然 大 于 1, 否则 所 
有 这 些 物 品 就 会 全 部 放 入 B, 中 。 如 果 我 们 将 该 结果 用 于 所 有 相 邻 的 两 个 箱子 , 那么 , 项 多 有 一 
半 的 空间 闲置 。 因 此 , 下 项 适合 算法 最 多 使 用 二 倍 的 最 优 箱子 数 6 

为 说 明 这 个 比率 2 是 精确 的 , 设 入 项 物品 大 小 当 i 是 奇数 时 s,=0.5, 而 当 i 是 侦 数 时 5, = 
2/N。 设 NN 可 被 4 整除 。 图 10-22 所 示 的 最 优 装 箱 由 含有 2 件 大 小 为 0.5 的 物品 的 NA 个 箱子 和 
含有 MN/2 件 大 小 为 2AN 物品 的 一 个 箱子 组 成 , 总 数 为 (N/A4) +1。 图 10-23 表示 下 项 适合 算法 使 


























用 N/2 个 箱子 。 因 此 , 下 项 适合 算法 可 以 用 到 几乎 二 倍 于 最 优 装 箱 数 的 箱子 。 口 
[ont empty 0.5 0.5 0.5 | 
empty empty ^ 
p we 
0.7 05 0.5 0.5 
04 03 A 
B, B, B, B; B, B, Byn Byun 
图 10-21 对 0.2, 0.5, 0.4, 0.7, 0.1, K] 10-22 对 0.5, 2/N, 0.5, 2/N, 0.5, 2/N, -- 
0.3, 0.8 的 下 项 适合 算法 的 最 优 装 箱 方法 


首次 适合 算法 

虽然 下 项 适合 算法 有 一 个 合理 的 性 能 保证 , 但 是 , 它 的 效果 在 实践 中 却 很 差 ， 因为 在 不 需 
要 开辟 新 箱子 的 时 候 它 却 开辟 了 新 箱子 。 在 前 面 的 样 例 运行 中 , 本 可 以 把 大 小 0.3 的 物品 放 入 
B, 或 B, 而 不 是 开辟 一 个 新 箱子 。 

首次 适合 算法 (first fit) 的 策略 是 依 序 扫描 这 些 箱子 并 把 新 的 一 项 物品 放 和 人 足 能 盛 下 它 的 第 
一 个 箱子 中 a 因此 ,只 有 当前 面 那 些 放置 物品 的 箱子 已 经 容 不 下 当前 物品 的 时 候 , FRAT A OT BE 
一 个 新 箱子 。 图 10-24 指出 对 我 们 的 标准 输入 进行 首次 适合 算法 的 装 箱 结果 。 











Byn 
图 10-23 Xf 0.5, 2/N, 0.5, 2/N, 0.5, 10-24 对 0.2, 0.5, 0.4, 0.7, 0.1, 
2/N，… 的 下 项 适合 装 箱 法 0.3, 0.8 的 首次 适合 装 箱 


实现 首次 适合 算法 的 一 个 简单 方法 是 通过 顺序 扫描 箱子 序列 处 理 每 一 项 物品 , 这 将 花费 
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O(N’) AT AT RELA OCN log NN) 运行 来 实现 首次 适合 算法 ; 我 们 把 它 留 作 练习 。 

略 加 思索 读者 即 可 明白 , 在 任 一 时 刻 最 多 有 一 个 箱子 其 空 出 的 部 分 大 于 箱子 的 一 半 , 因为 
若 有 第 二 个 这 样 其 空 大 于 一 半 的 箱子 , 则 它 的 内 容 物 就 会 装 到 第 一 个 这 样 的 箱子 中 了 。 因 此 我 
们 可 以 立即 断言 : 首次 适合 算法 保证 其 解 最 多 包含 最 优 装 箱 数 的 二 倍 。 

男 一 方面 , 我 们 在 证 明 下 项 适合 算法 性 能 的 界 时 所 用 到 的 最 坏 情况 对 首次 适合 算法 不 适 
用 。 因 此 , 人 们 可 能 要 问 : 是 否 能 够 证 明 更 好 的 界 呢 ? 答案 是 肯定 的 , 不 过 证 明 要 复杂 。 

定理 10.3 令 必 是 将 一 列 物 品 1 装 箱 所 需要 的 最 优 箱子 数 , 则 首次 适合 算法 使 用 的 箱子 


tre e (tM | 。 存 在 使 得 首次 适合 算法 使 用 | 地 (M - 1) | 个 箱子 的 序列 。 


证 明 : 
参阅 本 章 未 尾 的 参考 文献 。 
使 首次 适合 算法 得 出 和 前 面 定 理 指出 的 结果 几乎 一 样 差 的 例子 如 图 10-25 所 示 。 — 


AH 6M 个 大 小 为 了 +e HUSER 6M 个 大 小 为 村 te 的 项 以 及 接续 其 后 的 6M 个 大 小 为 广 +e 的 


项 组 成 。 一 种 简单 的 装 箱 办 法 是 将 每 种 大 小 的 各 一 项 物品 装 到 一 个 箱子 中 , 总 共和 需要 OM 个 箱 
子 。 如 用 首次 适合 算法 ,， 则 需要 10M 个 箱子 : 

当 首次 适合 算法 对 大 量 其 大 小 均匀 分 布 在 0 和 1 之 间 的 物品 进行 运算 时 , 经验 结果 指出 ， 
首次 适合 算法 用 到 大 约 比 最 优 装 箱 方 法 多 20% 的 箱子 。 在 许多 情况 下 , 这 是 完全 可 以 接受 的 。 

最 佳 适合 算法 

我 们 将 要 考查 的 第 三 种 联机 策略 是 最 佳 适合 (best fit) 装 箱 法 。 该 算法 不 是 把 一 项 新 物品 放 
入 所 发 现 的 第 一 个 能 够 容纳 它 的 箱子 , 而 是 放 到 所 有 箱子 中 能 够 容纳 它 的 最 满 的 箱子 中 。 典 型 
的 装 箱 方法 如 图 10-26 所 示 。 

= 
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图 10-25 ”首次 适合 算法 使 用 10W 个 而 不 是 6M 图 10-26 对 0.2, 0.5, 0.4, 0.7, 0.1, 0.3, 
个 箱子 的 情形 0. 8 的 最 佳 适合 算法 


注意 , 大 小 为 0.3 的 项 不 是 放 在 B, 而 是 放 在 了 B.. 此 时 它 正好 把 B. 填 满 。 由 于 我 们 现在 
对 箱子 进行 更 细致 的 选择 , 因此 人 们 可 能 认为 算法 性 能 保障 会 有 所 改善 。 但 是 情况 并 非 如 此 ， 
因为 一 般 的 坏 情形 是 相同 的 。 最 佳 适合 算法 绝 不 会 超过 最 优 算法 的 约 1.7 倍 , 而 且 存在 一 些 输 
A, 对 于 这 些 输入 该 算法 (几乎 ) 达到 这 个 界限 。 不 过 , 最 佳 适合 算法 编程 还 是 简单 的 , 特别 是 
当 需 要 O(N log N) 算 法 的 时 候 , 而 且 该 算法 对 随机 的 输入 确实 表现 得 更 好 。 

脱 机 算法 

如 果 我 们 能 够 观察 全 部 物品 以 后 再 算出 答案 , 那么 我 们 应 该 会 做 得 更 好 。 事 实 确实 如 此 ， 
由 于 我 们 通过 彻底 的 搜索 最 终 能 够 找到 最 优 装 箱 方法 ,因此 我 们 对 联机 情形 就 已 经 有 了 一 
论 上 的 改进 。 

所 有 联机 算法 的 主要 问题 在 于 将 大 项 物品 装 箱 困 [02] [os 1 
难 , 特别 是 当 它们 在 输入 的 后 期 出 现 的 时 候 。 围 绕 这 个 | udi 
问题 的 自然 方法 是 将 各 项 物品 排序 , 把 最 大 的 物品 放 在 | os| 
最 先 。 此 时 我 们 可 以 应 用 首次 适合 算法 或 最 佳 适 合算 B, EU E 
法 , 分 别 得 到 首次 适合 递减 算法 (first fit decreasing) 和 最 pg 10-27 对 0.8, 0.7, 0.5, 0.4, 0.3, 
佳 适 合 递减 算法 (best fit decreasing) 。 图 10-27 指出 在 我 0.2, 0.1 的 首次 适合 算法 
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们 的 例子 中 这 会 产生 最 优 解 (尽管 在 一 般 的 情形 下 显然 未 必 会 如 此 )。 

本 小 节 将 介绍 首次 适合 递减 算法 。 对 于 最 佳 适 合 递减 算法 , 结果 几乎 是 一 样 的 。 由 于 存在 
物品 大 小 不 是 互 异 的 可 能 , 因此 有 些 作 者 更 愿意 把 首次 适合 递减 算法 叫 作 首次 适合 非 增 算法 
(first fit nonincreasing) 。 我 们 将 沿用 原始 的 名 称 。 不 失 一 般 性 , 我 们 还 要 假设 输入 数据 的 大 小 
已 经 被 排序 。 

我 们 能 够 做 的 第 一 个 评注 是 , 首次 适合 算法 使 用 10M 个 而 不 是 6M 个 箱子 的 坏 情形 在 物品 
项 被 排序 的 情况 下 不 会 再 发 生 。 我 们 将 证 明 , 如 果 一 种 最 优 装 箱 法 使 用 M 个 箱子 , 那么 首次 适 
合 递减 算法 使 用 的 箱子 数 决 不 超过 (4M +1)/3。 


这 个 结果 依赖 于 两 个 观察 结论 。 首 先 ， 所 有 权重 大 于 二 的 项 将 被 放 入 前 M 个 箱子 内 。 这 意 


味 着 , ei M 个 箱子 之 外 的 其 余 箱子 中 所 有 各 项 的 权重 项 多 是 二。 第 二 个 结论 是 ,在 其 余 箱子 


中 物品 的 项 数 最 多 可 以 是 M-1。 把 这 两 个 结果 结合 起 来 我 们 发 现 , 其 余 的 箱子 最 多 可 能 需要 
[M -1)/3 | 个 。 现 在 我 们 证 明 这 两 个 观察 结果 。 

3110.1 令 W 项 物品 的 输入 大 小 (以 递减 顺序 排序 ) 分 别 为 % 52. rns sy 并 设 最 优 装 
箱 方 法 使 用 好 个 箱子 。 那 么 , 首次 适合 递减 算法 放 到 M 个 箱子 之 外 的 其 余 箱 子 中 的 所 有 物品 


的 大 小 最 多 为 3 。 
证 明 : 


设 第 i 项 物品 是 放 入 第 M+1 个 箱子 中 的 第 一 项 。 需 要 证 明 ser o 我 们 将 使 用 反 证 法 证 


y T ME l 
明 这 个 结论 , Us, > 本。 


由 于 这 些 物 品 的 大 小 是 以 排 好 序 的 顺序 排列 的 , 因此 , s,，s,，…，s,，> 上 。 由 此 得 知 ， 


3 
PURI T By, ，B,，…，B， 每 个 最 多 只 有 两 项 物品 。 
考虑 在 第 i-1 项 物品 被 放 入 一 个 箱子 后 但 第 i 项 物品 尚未 放 入 时 系统 的 状态 。 现 在 要 证 明 


(在 > 子 的 假设 下 ) 前 MM 个 箱子 排列 如 下 : 首先 是 有 些 箱子 内 恰好 有 一 项 物品 然后 简 下 的 箱 


子 肉 有 两 项 物品 。 

设 有 两 个 箱子 B, FI B, Hitt Lx ys M, B, 有 两 项 而 B, 有 一 项 。 令 x Ax, 是 有 .中 的 两 
项 物品 , 并 令 y 是 B, 中 的 那 一 项 物品 。x, Sy, AA x, 被 放 在 较 前 的 箱子 中 。 根 据 类 似 的 推理 
25,0 因此 , x, +r, Sy, ess 这 意味 着 si 是 应 该 可 以 放 在 B, 中 的 。 根 据 我 们 的 假设 , 这 是 不 


可 能 的 。 因 此 , WÈ s, 1l. 那么 在 我 们 试图 处 理 * 时 , 则 安排 前 W 个 箱子 使 得 前 7 个 箱子 各 装 


一 项 物品 , 而 后 M -j 个 箱子 各 放 两 项 物品 。 

为 了 证 明 该 引 理 , 我 们 将 证 明 不 存在 将 所 有 物品 装 人 M 个 箱子 的 方法 , 这 和 引 理 的 假 
WF. 

显然 , HES, s ons s 中 使 用 任何 算法 都 没有 两 项 可 以 放 和 人 一 个 箱子 中 , 如 果 能 放 , 那么 
首次 适合 算法 也 能 放 。 我 们 还 知道 , 首次 适合 算法 尚未 把 大 小 为 5,,，s,,,，…，s; 中 的 任 一 项 
放 入 前 7 个 箱子 中 , 因此 它们 都 不 能 再 往 前 7 个 箱子 中 放 。 这 样 , 在 任何 装 箱 方法 中 , 特别 是 最 
优 装 箱 方法 中 , 必然 存在 7 个 箱子 不 包含 这 些 项 。 由 此 可 知 , KAA srs Ses o Sa RIDU 
然 包含 在 W -j 个 箱子 的 集合 中 , 综合 前 面 的 讨论 , 于 是 这 些 项 的 总 数 为 2(M -j) ^. 


O ”回顾 首次 适合 算法 把 这 些 元 素 装 入 M -j 个 箱子 并 在 每 个 箱子 中 放 人 两 项 物品 。 因 此 有 2(W -ji 


算法 设计 技巧 297 








注意 , WDR s, ^s 那么 只 要 证 明 s, 没有 方法 放 人 这 M 个 箱子 中 的 任 一 个 中 去 , 该 引 理 的 
证 明 也 就 完成 了 。 a 显然 它 不 能 放 和 人 这 /7 个 箱子 中 去 , 因为 假如 能 放 入 , 那么 首次 适合 算 


法 也 能 够 这 么 做 。 把 它 放 人 剩 下 的 -个 箱子 之 一 中 需要 把 2(MN -j) +1 项 物品 分 发 到 这 M -j 


个 箱子 中 。 因 此 , 某 个 箱子 就 不 得 不 装 人 三 件 物品 ， 而 它们 中 的 每 一 件 都 大 于 3 ， 很 明显 , 这 是 


不 可 能 的 。 
这 与 所 有 大 小 的 物品 都 能 够 装 入 M 个 箱子 的 事实 矛盾 , 因此 开始 的 假设 肯定 是 不 正确 的 ， 
从 而 ss 本 L1 
引 理 10.2 放 入 其 余 箱 子 中 的 物品 的 个 数 最 多 是 M + 1。 
证 明 : 


假设 放 入 其余 箱子 中 的 物品 至 少 有 MM 个 Reed hehehe pi 
MM 个 箱子 。 设 对 于 1 <j < M, B, RR, RR UEM CAM PI I st: 
此 时 ,由 于 前 吕 个 箱子 中 的 项 加 上 前 M 个 其 你 箱子 中 的 项 是 所 有 项 物品 的 一 个 子 集 ， ie 

Xs» X W, + X. Y (V, + x) 
PEW, +x, >l, AEM KREEMA B, 中 。 因 此 
Y. > Yi >M 

若 这 N 项 物品 能 被 装 入 1f 个 箱子 中 , 则 上 起 不 可 能 成 立 。 因 此 ,最 多 只 能 有 M - 1 项 其 儿 
的 物品 。 口 
定理 10. 4 M 是 将 物品 集 / 装 箱 所 需 的 最 优 箱子 数 ,， 则 首次 适合 递减 算法 所 用 箱子 数 
决 不 超过 (4M +1)/3。 

证 明 : 

存在 M - 1 项 其 余 箱子 中 的 物品 , 其 大 小 至 多 为 3 。 因 此; 最 多 可 能 存在 [CN -1)/3 ] 个 其 


余 的 箱子 。 从 而 , 由 首次 适合 递减 算法 使 用 的 箱子 总 数 最 多 为 [(4M -1)/3 1< (4M+1)/3。 O 
对 于 首次 适合 递减 算法 和 下 项 适合 递减 算法 都 能 够 证 明 一 个 紧 得 多 的 界 。 
定理 10.5 $ 以 是 将 物品 集 7 装 箱 所 需 的 最 优 箱 数 , 则 首次 适合 递减 算法 所 用 箱 数 决 不 


超过 M+4。 此 外 ,存在 使 得 首次 适合 递减 算法 用 到 二 MM 个 箱子 的 序列 。 


证 明 : 最 优 装 箱 首次 适合 递减 算法 
上 界 需 要 非常 复杂 的 分 析 。 下 界 可 以 通过 


下 述 序列 展示 : 先是 大 小 为 二 + e 的 6M 项 , 其 











后 是 大 小 为 二 + 2e 的 6M 项 , 接着 是 二 + e 的 


1/2+e 








6M 项 ， 最 后 是 大 小 为 元 -2e 的 12M 项 物品 。 B, > Bey Be 一 Bow By Bey Bones: 7B gq Bev? Bum 
图 10-28 指出 最 优 装 箱 需 要 9M 个 箱子 , 而 首次 ”图 10-28 首次 适合 递减 算法 使 用 11M 个 箱子 
适合 递减 算法 需要 11M 个 箱子 。 口 但 只 有 9M 个 箱子 就 足够 完成 装 箱 

在 实践 中 , 首次 适合 递减 算法 的 效果 非常 好 。 如 果 大 小 在 单位 区 间 均 匀 选 择 , 那么 其 余 箱 
子 的 期 望 个 数 为 9( VM) 。 装 箱 算 法 是 简单 贪 禁 试探 算法 能 够 给 出 好 结果 的 一 个 好 例子 。 
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10.2 分 治 算法 


用 于 设计 算法 的 另 一 种 常用 技巧 为 分 治 算法 (divide and conquer)。 分 治 算法 由 两 部 分 
组 成 : 

分 (divide) : 递归 解决 较 小 的 问题 (当然 , 基本 情况 除外 ) o 

治 (conquer) : 然后 从 子 问 题 的 解构 建 原 问题 的 解 。 

传统 上 , 在 正文 中 至 少 含 有 两 个 递归 调用 的 例 程 叫 作 分 治 算法 , 而 正文 中 只 含 一 个 递归 调 
用 的 例 程 不 是 分 治 算法 。 一 般 坚 持 子 问 题 是 不 相交 的 ( 即 基 本 上 不 重生 )。 让 我 们 回顾 书 中 涉 
及 到 的 某 些 递归 算法 。 

我 们 已 经 看 到 几 个 分 治 算法 。 在 2.4.3 节 我 们 见 过 最 大 子 序列 和 问题 的 一 个 OCN log N) 
解 。 在 第 4 章 , 我 们 看 到 一 些 线性 时 间 的 树 遍历 方法 。 在 第 7 章 , 我 们 见 过 分 治 算法 的 经 典 例 
子 ( 归 并 排序 和 快速 排序 ) , 它们 分 别 有 OCN log N) 的 最 坏 情 形 以 及 平均 情形 的 时 间 界 。 

我 们 还 看 到 过 一 些 递 归 算 法 的 若干 例子 , 在 分 类 上 它们 很 可 能 不 算 作 分 治 算法 , 而 只 是 化 
简 到 一 个 更 简单 的 情况 。 在 1.3 35, 我 们 看 到 一 个 简单 的 显示 一 个 数 的 例 程 。 在 第 2 章 , 我 们 
使 用 递归 执行 有 效 的 取 短 运算 。 在 第 4 章 , 我 们 考察 了 二 叉 查 找 树 一 些 简 单 的 搜索 例 程 。 在 
6.6 1, 我 们 见 过 用 于 合并 左 式 堆 的 简单 的 递归 。 在 7.7 节 给 出 了 一 个 花费 线性 平均 时 间 解 决 
选择 问题 的 算法 。 第 8 章 递归 地 写 出 了 不 相交 集 的 Find 操作 。 第 9 章 指出 以 Dijkstra 算法 重新 
找 出 最 短路 径 的 一 些 例 程 以 及 对 图 进行 深度 优先 搜索 的 其 他 过 程 。 这 些 算法 实际 上 都 不 是 分 治 
算法 ,因为 只 进行 了 一 个 递归 调用 。 

我 们 在 2. 4 节 还 看 到 计算 斐 波 那 契 数 的 很 差 的 递归 例 程 。 我 们 可 以 称 其 为 分 治 算法 , 但 它 
的 效率 太 低 了 , 因为 问题 实际 上 根本 没有 被 分 割 。 

在 本 节 , 我 们 将 看 到 分 治 算法 范例 更 多 的 例子 。 第 一 个 应 用 是 计算 几何 中 的 问题 。 给 定 平 
面 上 的 入 个 点 , 我 们 将 证 明 最 近 的 一 对 点 可 以 在 OCN log N) 时 间 找 到 。 本 章 后 面 的 一 些 练习 描 
述 了 计算 几何 中 另外 一 些 问题 , 它们 可 以 由 分 治 算法 求解 。 本 节 其 余部 分 介绍 极其 有 趣 但 主要 
是 理论 上 的 一 些 结果 。 我 们 提供 一 个 算法 以 0(N) 最 坏 情形 时 间 解 决 选择 问题 。 我 们 还 要 证 明 
可 以 用 o(CN ) 次 操作 将 2 个 入 -比特 位 的 数 相 乘 并 以 ol( NV ) 次 操作 将 两 个 NxN 矩阵 相 乘 。 不 幸 
的 是 , 虽然 这 些 算法 最 坏 情 形 时 间 界 比 传统 算法 更 好 , 但 除了 非常 巨大 的 输入 外 它们 都 并 
不 实用 。 

10.2. 1 分 治 算法 的 运行 时 间 

我 们 将 要 看 到 的 所 有 有 效 的 分 治 算法 都 是 把 问题 分 成 一 些 子 问题 , 每 个 子 问题 都 是 原 问 题 
的 一 部 分 , 然后 进行 某 些 附加 的 工作 以 算出 最 后 的 答案 。 作 为 一 个 例子 , 我 们 已 经 看 到 归并 排 
序 对 两 个 问题 进行 运算 , 每 个 问题 均 为 原 问 题 大 小 的 一 半 , 然后 用 到 OCN) 的 附加 工作 。 由 此 
得 到 运行 时 间 方 程 ( 带 有 适当 的 初始 条 件 ) 

T(N) =2T(N/2) + O(N) 
我 们 在 第 7 章 看 到 , 该 方程 的 解 为 O(N log NW)。 下 面 的 定理 可 以 用 来 确定 大 部 分 分 治 算法 的 运 
行 时 间 。 
定理 10.6 方程 T(N) =aT( N/b) + O(N) REN: 


O(N =”) #a>b 
T(N) =} 0(N*log N) #a=b' 
O(N) fia<b' 


其 中 a1 以 及 b>1。 

证 明 : 

根据 第 7 章 归 并 排序 的 分 析 , 假设 NN 是 4b BE; 于 是 , 可 令 N= 如 。 此 时 Nb =b" "及 
N' 2 (b)! zb" =b" =(b')", 假设 7(1) =1, 并 忽略 B(N) 中 的 常数 因子 , WA 
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T(b^) 2aT(b^^ ) +(b')" 
如 果 用 a" 除 两 边 , 则 得 到 方程 








Mb") TU), fey (10.3) 
a a a 
我 们 可 以 对 m 的 其 他 值 应 用 该 方程 , 得 到 
Tier) fr) 位 p 
m an (10.4) 
a a 4 
TU") TO") EY. (10.5) 
a a a 
run qu, pr (10.6) 
a a a 








使 用 将 (10.3) 到 (10.6) 的 各 个 方程 累加 起 来 的 标准 技巧 , 等 号 左边 的 所 有 项 实际 上 与 等 号 
右边 的 前 一 项 相 消 , 由 此 得 到 


a aun 
á Yt (10.8) 

因此 
T(N) = T(b") = ay {eh (10.9) 


如 果 a » b^, 那么 和 就 是 一 个 公 比 小 于 1 的 几何 级 数 。 由 于 无 穷 级 数 的 和 收敛 于 一 个 常数 , 因此 
该 有 限 的 和 也 以 一 个 常数 为 界 ， 从 而 方程 (10. 10 ) 成 立 : 


T(N) 20(a") 20(a"^) 20(N'^) (10. 10) 
Al a - b^, 那么 和 中 的 每 一 项 均 为 1。 由 于 和 含有 1 + log, NHM a=b" 表示 logia 2k, 于 是 
T(N) =0(a"log, N) = O(N" log, N) = O( N'log, N) =0(N*log N) (10. 11) 


最 后 , 如 果 a< 汪 ,那么 该 几何 级 数 中 的 项 都 大 于 1, H 1.2.3 节 中 的 第 二 个 公式 成 立 。 我 们 
得 到 


ren) =a" Œ -1 _ g(an( yay") =0((b')") 20(N') (10. 12) 
(b 7a) -1 
定理 的 最 后 一 种 情形 得 证 。 [1 


作为 一 个 例子 , 归并 排序 有 a =b=2 且 丰 =1。 第 二 种 情形 成 立 , 因此 答案 为 O(N log N)。 
如 果 我 们 求解 三 个 问题 , 每 个 问题 都 是 原始 大 小 的 一 半 , 使 用 0(N) 的 附加 工作 将 解 联合 起 来 ， 
则 a =3, b=2 且 k=1。 此 处 情形 1 成 立 , 于 是 得 到 界 O(N) = 0(N'”)。 求 解 三 个 一 半 大 小 
的 问题 但 需要 OCN ) 工 作 以 合并 解 的 算法 的 运行 时 间 将 是 OCNT) , 因为 此 时 第 三 种 情形 成 立 。 
有 两 个 重要 的 情形 定理 10.6 没有 包括 。 我 们 再 叙述 两 个 定理 , 但 把 证 明 留 作 练习 。 定 理 
10.7 推广 了 前 面 的 定理 。 
定理 10.7 方程 T(N) =aT(N/b) + O(N'log N) HREH : 
O(N") #a>b' 
T(N) = [ovem #a=b' 
O( N' log" N) diac 
Hipazl,b»1Hpz0. 


定理 10.8 MRY o, <1, 则 方程 Y(N) e Y, TaN) + O(N) 的 解 为 7(N) = O(N). 
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10.2.2 最 近 点 问题 

我 们 第 一 个 问题 的 输入 是 平面 上 的 点 列 P. WMR p, m (x. y) HE p m Gs y), Ap, 和 
p; 间 的 欧 几 里 得 距离 为 [ (x, x)! + (y, 2y) ] s 我们 需要 找 出 一 对 最 近 的 点 。 有 可 能 两 个 
点 位 于 相同 的 位 置 ; 在 这 种 情形 下 这 两 个 点 就 是 最 近 的 , 它们 的 距离 为 零 。 

如 果 存 在 入 个 点 , 那么 就 存在 N(N -1)/2 对 点 间 的 距离 。 我 们 可 以 检查 所 有 这 些 距离 , 得 
到 一 个 很 短 的 程序 , 不 过 这 是 一 个 花费 O (INT ) 的 算法 。 由 于 这 种 方法 是 一 种 穷尽 搜索 的 方法 ， 
因此 我 们 应 该 期 望 做 得 更 好 一 些 。 

假设 平面 上 这 些 点 已 经 按照 v 的 坐标 排 过 序 , 最 多 这 只 不 
过 是 在 最 后 的 时 间 界 上 仅 多 加 了 OCN log N) 而已。 由 于 将 证 . 

明 整 个 算法 的 O(N log N) 界 , 因此 从 复杂 度 的 观点 来 看 , 该 排 
序 基本 上 没有 增加 时 间 消 耗 的 量 级 。 

图 10-29 画 出 一 个 小 的 样本 点 集 P。 既 然 这 些 点 已 按 x 坐 

标 排序 , 那么 就 可 以 划一 条 想象 的 垂 线 , 把 点 集 分 成 两 半 : P, 

和 Pi。 这 做 起 来 当然 简单 。 现 在 我 们 得 到 的 情形 几乎 和 我 们 

在 2.4.3 节 的 最 大 子 序列 和 问题 中 见 过 的 情形 完全 相同 。 最 近 E1029 一 个 小 规模 的 点 集 

的 一 对 点 或 者 都 在 已 中 , 或 者 都 在 Pe P, 或 者 一 个 点 在 P, 中 而 另 一 个 在 Pp 中 。 可 以 将 这 三 
451) 个 距离 分 别 叫 作 d, dp 和 d。。 图 10-30 显 示 出 点 集 的 划分 和 这 三 个 距离 。 

我 们 可 以 递归 地 计算 d, 和 di。 然后 , 问题 就 是 计算 ds。。 由 于 想 要 一 个 O(N log N) 的 解 ， 
因此 必须 能 够 仅仅 多 花 OCN) 的 附加 工作 计算 出 ds。。 我 们 已 经 看 到 , 如果 一 个 过 程 由 两 个 一 半 
大 小 的 递归 调用 和 附加 的 0(N) 工作 组 成 , 那么 总 的 时 间 将 是 OCN log N) 。 

令 8=min(d,，d;)。 我 们 的 第 一 个 观察 结论 是 , 如 果 d, 对 5 有 所 改进 , 那么 只 需 计算 deo An 
JE de 是 这 样 的 距离 ， 则 决定 d, 的 两 个 点 必然 在 分 割 线 的 5 距离 之 内 ; 我 们 将 把 这 个 区 域 叫 作 一 
条 带 (strip) 。 如 图 10-31 所 示 , 这 个 观察 结论 限制 了 需要 考虑 的 点 的 个 数 (此 例 中 的 5=d;)。 








de 
d, Py P; 
i y 4 | Bo PA 
! Ps 
Po P; 
«—6——06— 
图 10-30 ”被 分 成 忆 AP, 的 点 集 P; 图 图 10-31. 双 道 带 区 域 , 包含 对 于 dc 带 
中 显示 了 最 短 的 距离 所 考虑 的 全 部 点 


有 了 两 种 方法 可 以 用 来 计算 dc。 对 于 均匀 分 布 的 大 型 点 集 , 预计 位 于 该 带 中 的 点 的 个 数 是 非常 
vi, ERE, 容易 论证 平均 只 有 O(VN) 个 点 在 这 个 带 中 。 因 此 , 我 们 可 以 以 O(CN) 时间 对 这 些 
点 进行 蛮 力 计算 。 图 10-32 中 的 伪 代 码 实现 该 方法 , 其 中 按照 Java 语言 的 约定 点 的 下 标 从 0 开始 。 







// Points are all in the strip 





for( i = 0; i < numPointsInStrip; i++ ) 
for( j = i + 1; j < numPointsInStrip; j++ ) 
if( dis(p,p) < ô) 

5 = dist(pi, pj); 


图 10-32 min(8, d) 的 蛮 力 计算 
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在 最 坏 情形 下 , 所 有 的 点 可 能 都 在 这 条 带 状 区 域内 , 因此 这 种 方法 不 总 能 以 线性 时 间 运 行 。 
我 们 可 以 用 下 列 的 观察 结果 改进 这 个 算法 : 确定 d 的 两 个 点 的 y 坐标 相差 最 多 是 8。 否则 ， 
d, > 6。 设 带 中 的 点 按照 它们 的 y 坐标 排序 。 因 此 , 如 果 p; 和 pp 的 y 坐标 相差 大 于 5, 那么 我 们 可 
以 继续 处 理 p;,, 。 这 个 简单 的 修改 在 图 10-33 中 实现 。 


// Points are all in the strip and sorted by y-coordinate 
for( i = 0; i < numPointsInStrip; i++ ) 


for( j = i + 1; j < numPointsInStrip; j++ ) 
if( Pi and pj's y-coordinates differ by more than ô ) 


break; // Go to next pi. m 
else = 


if( dist(p;, pj) < à) 
5 = dist(pi, pj)s 





图 10-33 min(d, de) 的 精 化 计算 


这 个 附加 的 测试 对 运行 时 间 有 着 显著 的 影响 , 因为 对 于 每 一 个 p;, TE p, 和 pj 的 y 坐标 相差 

大 于 6 并 被 迫 退 出 内 层 for 循环 以 前 , 只 有 少数 的 点 p, 被 考查 。 例 如 , 图 10-34 显示 对 于 点 p. 
只 有 两 个 点 ps M ps 落 在 垂直 距离 5 之 内 的 带 状 区 域 中 ，。 

对 于 任意 的 点 p, 在 最 坏 的 情形 下 最 多 有 7 个 点 p 被 考虑 。 这 是 因为 这 些 点 必 定 落 在 该 带 
状 区 域 左 半 部 分 的 5x65 方 块 内 或 者 该 带 状 区 域 右 半 部 分 的 6x6 方 块 内 。 男 一 方面 , 在 每 个 6 x 
8 方块 内 的 所 有 的 点 至 少 分 离 5。 在 最 坏 的 情形 下 , 每 个 方块 包含 4 个 点 , 每 个 角 上 一 个 点 。 这 
些 点 中 有 一 个 是 p,, 最 多 还 剩 下 7 个 点 要 考虑 。 最 坏 情 形 的 状况 如 图 10-35 所 示 。 注 意 , 虽然 
Pu 和 pr 有 相同 的 坐标 , 但 它们 可 以 是 不 同 的 点 。 对 于 具体 的 分 析 来 说 , 唯一 重要 的 是 入 x2X 的 
矩形 区 域 中 的 点 的 个 数 为 0(1), 这 显然 很 清楚 。 





















d, pis }eP, 
P Ps Pra Pra} Pri Pro 
: n 
1 Ps Left half (A x A) [Right half (A x A) 
[i 
Bi 
x—6—*—6—5 Piz Pia Pra Pra 
图 10-34 在 第 二 个 for 循环 内 具有 p, 图 10-35 最 多 有 8 个 点 在 该 矩形 中 ;有 两 个 坐 
和 ps 被 考虑 标 其 中 每 个 都 由 两 个 点 分 享 


因为 对 于 每 个 p; 最 多 有 7 个 点 要 考虑 , 所 以 计算 比 8 好 的 dc 的 时 间 是 0(N)。 因 此 , 基于 
两 个 一 半 大 小 的 递归 调用 加 上 联合 两 个 结果 的 线性 附加 工作 , 看 来 我 们 似乎 对 最 近 点 问题 有 一 
个 0(N log N) 解 。 然 而 , 我 们 还 没有 真正 得 到 OCN log N) 的 解 。 

问题 在 于 , 我 们 已 经 假设 这 些 点 按照 y 坐标 排序 是 现成 的 。 如 果 对 于 每 个 递归 调用 都 执行 
这 种 排序 , 那么 我 们 又 有 OCN log N) 的 附加 工作 : 这 就 得 到 一 个 OCN log N) 算 法 。 不 过 问题 还 
不 完全 这 么 糟 , 尤其 在 和 蛮 力 O(N ) 算 法 比较 的 时 候 。 然 而 , 不 难 把 对 于 每 个 递归 调用 的 工作 
简化 到 OCN) ,从 而 保证 OCN log N) 算 法 。 

我 们 将 保留 两 个 表 。 一 个 是 按照 x 坐标 排序 的 点 的 表 , 而 另 一 个 是 按照 y 坐标 排序 的 点 的 
表 。 我 们 分 别称 这 两 个 表 为 已 和 @。 这 两 个 表 可 以 通过 一 个 预 处 理 排序 步骤 花费 O(N log NN) 得 
到 , 因此 并 不 影响 时 间 界 。P, 和 Q, 是 传递 给 左 半 部 分 递归 调用 的 参数 表 , Pe 和 On 是 传递 给 右 
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半 部 分 递归 调用 的 参数 表 。 我 们 已 经 看 到 , P 很 容易 在 中 间 分 开 。 一 旦 分 割 线 已 知 , 我 们 依 序 
转 到 Q, 把 每 一 个 元 素 放 人 相应 的 0, 或 0;。 容 易 看 出 , 0, HO, 将 自动 地 按照 y 坐标 排序 。 当 
递归 调用 返回 时 , 我 们 扫描 O 表 并 删除 其 x 坐标 不 在 带 内 的 所 有 的 点 。 此 时 Q 只 含有 带 中 的 
点 ， 而 这 些 点 保证 是 按照 它们 的 y 坐标 排序 的 。 

这 种 策略 保证 整个 算法 是 O(N log N) 的 , 因为 只 执行 了 O(N) 的 附加 工作 。 
10.2.3 ”选择 问题 

选择 问题 ( selection problem) 要 求 我 们 找 出 PCR WEG S 中 的 第 个 最 小 的 元 素 。 我 们 
对 找 出 中 间 元 素 的 特殊 情况 有 着 特别 的 兴趣 , 这 种 情况 发 生 在 [=N/2 ] 的 时 候 。 

在 第 1 章 、 第 6 章 和 第 7 章 我 们 已 经 看 到 过 选择 问题 的 几 种 解法 。 第 7 章 中 的 解法 用 到 快 
速 排序 的 变 体 并 以 平均 时 间 O(N) 运行 。 事 实 上 , 它 在 Hoare 论述 快速 排序 的 原始 论文 中 已 
有 描述 。 

虽然 这 个 算法 以 线性 平均 时 间 运 行 , 但 是 它 有 一 个 O(M ) 的 最 坏 情 况 。 通 过 把 元 素 排序 ， 
选择 可 以 容易 地 以 O(N log N) 最 坏 情形 时 间 解 决 , 不 过 , 长 时 间 不 知道 选择 是 否 能 够 以 O(N) 
最 坏 情形 时 间 完 成 。 在 7. 7. 6 节 概 述 的 快速 选择 算法 在 实践 中 是 相当 有 效 的 , 因此 这 个 问题 主 
要 还 是 理论 上 的 问题 。 

我 们 知道 , 基本 的 算法 是 简单 递归 策略 。 设 NN 大 于 截止 点 (cutoff point), 元 素 将 从 截止 点 
开始 进行 简单 的 排序 , v 是 选 出 的 一 个 元 素 , 叫 作 枢纽 元 (pivot)。 其 余 的 元 素 被 放 在 两 个 集合 
S, AS, Ho S 含有 不 大 于 vw cH, 而 S, 则 包含 不 小 于 vw 的 元 素 。 最 后 , 如 果 k< |S, |, 那么 
S 中 的 第 大 个 最 小 的 元 素 可 以 通过 递归 计算 S, 中 第 大 个 最 小 的 元 素 而 找到 。 如 果 丰 = | S | +1, 
则 枢纽 元 就 是 第 左 个 最 小 的 元 素 。 否 则 , 在 5 中 的 第 个 最 小 的 元 素 是 $ 中 的 第 (tt- |S, | -1) 
个 最 小 元 素 。 这 个 算法 和 快速 排序 之 间 的 主要 区 别 在 于 , 这 里 要 求解 的 只 有 一 个 子 问题 而 不 是 
两 个 子 问 题 。 

为 了 得 到 一 个 线性 算法 , 我 们 必须 保证 子 问题 只 是 原 问题 的 一 部 分 , 而 不 仅仅 只 是 比 原 问 
题 少 几 个 元 素 。 当 然 , 如 果 我 们 愿意 花费 一 些 时 间 查 找 的 话 , 那么 总 能 够 找到 这 样 一 个 元 素 .。 
困难 的 问题 在 于 我 们 不 能 花费 太 多 的 时 间 寻 找 枢 纽 元 。 

对 于 快速 排序 , 我 们 看 到 枢纽 元 一 种 好 的 选择 是 选取 三 个 元 素 并 取 它 们 的 中 值 项 。 这 就 产 
生 某 种 期 望 , 认为 枢纽 元 不 太 坏 , 但 它 并 不 提供 一 种 保证 。 我 们 可 以 随机 选取 21 个 元 素 ， 以 常 
数 时 间 将 它们 排序 , 用 第 11 个 最 大 的 元 素 作为 枢纽 元 , 并 得 到 更 可 能 好 的 枢纽 元 。 然 而 ， 如果 
iX 2I 个 元 素 是 21 个 最 大 元 , 那么 枢纽 元 仍然 会 不 好 。 将 这 种 想法 扩展 , 我 们 可 以 使 用 直到 0 
(N/AlogN) 个 元 素 , 用 堆 排序 以 O(N) 总 时 间 将 它们 排序 , 从 统计 的 观点 看 几乎 肯定 得 到 一 个 好 
的 枢纽 元 。 不 过 , 在 最 坏 情 形 下 , 这 种 方法 行 不 通 , 因为 我 们 可 能 选择 0(N/logN) 个 最 大 的 元 
K, 而 此 时 的 枢纽 元 则 是 第 [LN — O( N/logN) ] 个 最 大 的 元 素 , 这 不 是 NN 的 一 个 常数 部 分 。 

然而 , 基本 想法 还 是 有 用 的 。 的 确 , 我 们 将 看 到 , 可 以 用 它 来 改进 快速 选择 所 进行 的 期 望 
的 比较 次 数 。 但 是 , 为 得 到 一 个 好 的 最 坏 情 形 , 关键 想法 是 再 用 一 个 间接 层 。 我 们 不 是 从 随机 
元 素 的 样本 中 找 出 中 值 项 ,而 是 从 中 值 项 的 样本 中 找 出 中 值 项 。 

基本 的 枢纽 元 选择 算法 如 下 : 

1. 把 W 个 元 素 分 成 | W5 MAS 个 元 素 的 组 ,忽略 剩余 (最 多 4 个 ) 的 元 素 。 

2. 找 出 每 组 的 中 值 项 , 得 到 L N/5 个 中 值 项 的 表 M. 

3. 求 出 以 的 中 值 项 , 将 其 作为 枢纽 元 v 返回。 

我 们 将 用 术语 五 数 中 值 取 中 分 割 法 (median-of-median-of-five partitioning) 描述 使 用 上 面 给 出 
的 枢纽 元 选择 法 则 的 快速 选择 算法 。 现 在 我 们 证 明 , 五 数 中 值 取 中 分 割 法 保证 每 个 递归 子 问题 
最 多 是 原 问 题 的 大 约 70% 的 大 小 。 我 们 还 要 证 明 , 对 于 整个 选择 算法 , 枢纽 元 可 以 足够 快 地 算 
出 以 确保 0(N) 的 运行 时 间 。 

现在 让 我 们 假设 N 可 以 被 5 整除 , 因此 不 存在 多 余 的 元 素 。 再 设 N/5 为 奇数 , 这 样 集合 M 
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就 包含 奇数 个 元 素 。 我 们 将 要 看 到 , 这 将 提供 某 种 对 称 性 。 于 是 , 为 方便 起 见 我 们 假设 入 为 
10k +5 的 形式 ， 还 假设 所 有 的 元 素 都 是 互 异 的 。 实 际 的 算法 必须 保证 能 够 处 理 该 假设 不 成 立 的 
情况 。 图 10-36 指出 当 N =45 时 枢纽 元 如 何 能 够 五 个 元 素 的 排序 组 


Be tH 
在 图 10-36 rp, v 代表 该 算法 选 出 作为 枢纽 元 A ege 

D; 

fo) 





的 元 素 。 由 于 "是 9 个 元 素 的 中 值 项 , 而 我 们 假设 
所 有 元 素 互 异 , 因此 必然 存在 4 个 中 项 大 于 vw 以 及 
4 个 小 于 wv。 我 们 分 别 用 LL 和 5 表示 这 些 中 值 项 。 
考虑 具有 一 个 大 中 值 项 (L 型 ) 的 五 元 素 组 。 该 组 的 
中 值 项 小 于 组 中 的 两 个 元 素 且 大 于 组 中 的 两 个 元 1 
Ko RIKO 已 代表 那些 巨型 元 素 。 存 在 一 些 已 "RE EY A 
知 大 于 一 个 大 中 值 项 的 元 素 。 类 似 地 ,7 代表 那些 图 10-36 枢纽 元 的 选择 
小 于 一 个 小 中 值 项 的 微型 元 素 。 存 在 10 个 下 型 的 元 素 : 具有 二 型 中 项 的 每 组 中 有 两 个 , v 所 在 
的 组 中 有 两 个 。 类 似 地 , 存在 10 个 了 型 元 素 。 , 

L 型 元 素 或 五 型 元 素 保证 大 于 ", 而 S 型 元 素 或 了 型 元 素 保 证 小 于 w。 于 是 在 我 们 的 问题 中 
保证 有 14 个 大 元 素 和 14 个 小 元 素 。 因 此 , 递归 调用 最 多 可 以 对 45 -14 - 1 =30 个 元 素 进行 。 

让 我 们 把 分 析 推 广 到 对 形 如 10k+5 的 一 般 N 的 情形 。 在 这 种 情况 下 , 存在 天 个 区 型 元 素 和 
大 个 S 型 元 素 。 存 在 2k+2 PH BCR, 还 有 2k+2 个 了 型 元 素 。 因 此 , 有 3k+2 个 元 素 保 证 大 
Fv 以 及 3k+2 个 元 素 保 证 小 于 v。 于 是 在 这 种 情况 下 递归 调用 最 多 可 以 包含 7k +2 <0.7N 个 
TOR. WHEN ANKE 10k +5 的 形式 , 类 似 的 论证 仍 可 进行 而 不 影响 基本 结果 。 

剩 下 的 问题 是 确定 得 到 枢纽 元 的 运行 时 间 的 界 。 有 两 个 基本 的 步骤 。 可 以 以 常数 时 间 找 到 
5 元 素 的 中 值 项 。 例 如 , 不 难 用 8 次 比较 将 5 个 元 素 排序 。 我 们 必须 进行 L N/5 次 这 样 的 运算 ， 
因此 这 一 步 花费 0(N) 时 间 。 然 后 必须 计算 LN/5 上 元 素 组 的 中 值 项 。 明 显 的 做 法 是 将 该 组 排序 
并 返回 中 间 的 元 素 ， 但 这 需要 花费 0(L N/5 ]log LN/5 J) = OCN logN) 的 时 间 , 因此 不 能 这 么 做 。 
解决 方法 是 对 这 | N/5 上 个 元 素 递 归 地 调用 选择 算法 。 

现在 对 基本 算法 的 描述 已 经 完成 。 如 果 想 有 一 个 实际 的 实现 方法 , 那么 还 有 某 些 细节 仍然 
需要 补充 。 例 如 , 重复 元 必须 要 正确 地 处 理 , 该 算法 需要 截止 点 足够 大 以 确保 递归 调用 能 够 进 
行 。 由 于 涉及 大 量 的 系统 开销 ， 而 且 该 算法 根本 不 实用 , 因此 这 里 将 不 再 描述 需要 考虑 的 任何 
细节 。 即 使 如 此 , 该 算法 从 理论 的 角度 来 看 仍然 是 一 种 突破 , 因为 其 运行 时 间 在 最 坏 情 形 下 是 
线性 的 , 这 正如 下 面 的 定理 所 述 。 

定理 10.9 使 用 五 数 中 值 取 中 分 割 法 的 快速 选择 算法 的 运行 时 间 为 OCN) 。 

证 明 : 

该 算法 由 大 小 为 0.7N 10. 2N 的 两 个 递归 调用 以 及 线性 附加 工作 组 成 。 根 据 定理 10. 8, 其 
运行 时 间 是 线性 的 。 口 

降低 比较 的 平均 次 数 

分 治 算法 还 可 以 用 来 降低 选择 算法 所 需要 的 期 望 比较 次 数 。 让 我 们 看 一 个 具体 的 例子 。 设 
有 1000 个 数 的 集合 5 并 且 要 寻找 其 中 第 100 个 最 小 的 数 X。 选择 S 的 子 集 5', 它 由 100 个 数组 
成 。 我 们 期 望 X 值 的 大 小 类 似 于 5' 的 第 10 个 最 小 的 数 。 尤 其 是 5' 的 第 5 个 最 小 的 数 几乎 肯定 
小 于 X, 而 5 的 第 15 个 最 小 的 数 几乎 肯定 大 于 

更 一 般 地 ,从 NN 个 元 素 选取 s 个 元 素 的 样本 5S'。 令 6 是 某 个 数 , 后 面 我 们 将 选择 它 使 得 把 
该 过 程 所 用 的 平均 比较 次 数 最 小 化 。 我 们 找 出 5' 中 第 (vw = ks/N -6) 个 和 第 (v, = hs/N +6) 个 最 
小 的 元 素 。 几 乎 肯定 S$ 中 的 第 个 最 小 元 素 将 落 在 vw 和 vw 之 间 , 因此 留 给 我 们 的 是 关于 26 个 
元 素 的 选择 问题 。 第 上 个 最 小 元 素 以 低 概率 不 落 在 这 个 范围 , 而 我 们 有 大 量 的 工作 要 做 。 不 
ib, Rs 和 6 选择 得 好 , 根据 概率 论 的 定律 我 们 可 以 肯定 , 第 二 种 情形 对 于 整体 工作 不 会 有 不 
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利 的 影响 。 

如 果 进 行 分 析 , 那么 我 们 就 会 发 现 , 若 s = NU log Nfl8- N^ logh N, 则 期 望 的 比较 次 数 
WN+k+ O(N log? N)， 除 低 次 项 外 它 是 最 优 的 。( 如 果 上 丰 > N/2, 那么 可 以 考虑 查找 第 
CN - ) 个 最 大 元 素 的 对 称 问题 。) 

大 部 分 的 分 析 都 容易 进行 。 最 后 一 项 代表 进行 两 次 选择 以 确定 和 vw 的 代价 。 假 设 采用 
合理 巧妙 的 策略 , 则 划分 的 平均 代价 等 于 NN 加 上 vw E S 中 的 期 望 秩 (expected rank), BIN +k + 
O(N6/s)。 如 果 第 个 元 素 在 S 中 出 现 ,那么 结束 算法 的 代价 等 于 对 5' 进 行 选择 的 代价 ， 即 
Ols) 。 如 果 第 个 最 小 元 素 不 在 5' 中 出 现 , 那么 代价 就 是 0(N) 。 然 而 , s 和 6 已 经 被 选取 以 保 
证 这 种 情况 以 非常 低 的 概率 o (LAN) RÆ, 因此 该 可 能 性 的 期 望 代价 是 o(1), 它 是 当 UN 越 来 越 
大 时 趋向 于 0 的 一 项 。 一 种 精确 的 计算 留 作 练习 10.21. 

这 个 分 析 指出 , 找 出 中 值 项 平均 大 约 需 要 1.5N 次 比较 。 当 然 , 该 算法 为 计算 s 需要 浮 点 运 
算 , 这 在 一 些 机 器 上 可 能 使 该 算法 减 慢 速度 。 不 过 即使 是 这 样 , 经 验 已 经 证 明 , 若 能 正确 实现 ， 
则 该 算法 完全 能 够 比 得 上 第 7 章 中 快速 选择 的 实现 方法 。 

10.2.4 一 - 些 算术 问题 的 理论 改进 

本 节 将 描述 一 个 分 治 算法 ,该 算法 是 将 两 个 N 位 数字 的 数 相 乘 。 在 前 面 的 计算 模型 假设 乘 
法 是 以 常数 时 间 完 成 的 , 因为 乘 数 很 小 。 对 于 大 的 数 , 这 个 假设 不 再 成 立 。 如 果 我 们 以 参与 相 
乘 的 数 的 大 小 来 衡量 乘法 , 那么 自然 的 乘法 算法 花费 平方 时 间 , 而 分 治 算法 则 以 亚 二 次 时 间 
(subquadratic time) 运行 。 我 们 还 要 介绍 经 典 的 分 治 算法 , 它 以 亚 三 次 时 间 (subcubic time ) 将 两 
AN xN HEER, 

整数 相 乘 

设 要 将 两 个 N 位 数字 的 数 工 和 了 工 相 乘 。 如 果 碟 和 了 恰好 有 一 个 是 负 的 , 那么 结果 就 是 负 
的 ; 否则 结果 为 正 数 。 因 此 , 我 们 可 以 进行 这 种 检查 然后 假设 X,Y 大 0。 几 乎 每 一 个 人 在 笔算 
乘法 时 使 用 的 算法 都 需要 ON ) 次 操作 , 这 是 因为 X 中 的 每 一 位 数字 都 要 被 了 的 每 一 位 数字 去 
乘 的 缘故 。 

ne X =61438521 Mii Y 294736407 , 那么 XY =5820464730934047。 让 我 们 把 XY 和 YY 拆 成 两 
^E, 分 别 由 最 高 几 位 和 最 低 几 位 数字 组 成 。 此 时 , X, 26143, X, =8521, Y, 29473, Y, 26407. 
REA X =X,10* - X, 以 及 了 = 六 10 + 了。 由 此 得 到 

0 

注意 , 这 个 方程 由 4 次 乘法 组 成 , BUX, X, Yrs X,Y, 和 XnYs， 它 们 每 一 个 都 是 原 问 题 大 
小 的 一 半 ( N/2 位 数字 )。 用 10” 和 10* 作 乘 法 实际 就 是 添加 一 些 0, 它 及 其 后 的 几 次 加 法 只 是 添 
加 了 O(N) 附 加 的 工作 。 如 果 递 归 地 使 用 该 算法 进行 这 4 项 乘法 , 在 一 个 适当 的 基准 情形 下 停 
止 , 那么 得 到 递归 

| T(N) 24T(N/2) + O(N) 

从 定理 10. 6 可 以 看 到 TUN) = O(N’) ,因此 很 不 幸 我 们 没有 改进 这 个 算法 。 为 了 得 到 一 个 

亚 二 次 的 算法 , 我 们 必须 使 用 少 于 4 次 的 递归 调用 。 关 键 的 观察 结果 是 
的 

FE, 我 们 可 以 不 用 两 次 乘法 来 计算 10° 的 系数 , 而 可 以 用 一 次 乘法 再 加 上 已 经 完成 的 两 
次 乘法 的 结果 。 图 10-37 演示 如 何 只 需求 解 3 次 递归 子 问 题 。 

容易 看 到 现在 的 递归 方程 满足 

T(N) =3T(N/2) +O(N) 
从 而 我 们 得 到 T(N) 20(N"9) =0(N 7” )。 为 完成 这 个 算法 , 我 们 必须 要 有 一 个 基准 情况 , 该 
情况 可 以 无 需 递 归 而 解决 。 

当 两 个 数 都 是 一 位 数字 时 , 我 们 可 以 通过 查 表 进 行 乘法 ; 若 有 一 个 乘 数 为 0, 则 返回 0。 假 
如 在 实践 中 要 用 这 种 算法 , 那么 就 要 把 基本 情况 选择 成 对 机 器 最 方便 的 情况 。 















































算法 设计 技巧 305 
函数 值 计算 复杂 度 
X, 
Xp 
Y, 
Yr 
D, =X, -Xp -2, 378 
D, - Y, - Y, -3, 066 
XV. 58, 192, 639 
X. V. 54, 594, 047 T(N/2) 
= D,D; 7, 290, 948 T(N/2) 
D, =D,D, * X,Y, + XpYR 120, 077, 634. — — O(N) 
XgYg 54, 594, 047 上 面 已 算出 
D410* 1, 200, 776, 340, 000 O(N) 
XjF,10* 5, 819, 263, 900, 000, 000 O(N) 
X,Y,10* 4 D,10* + X, Y, 5, 820, 464, 730, 934, 047 O(N) 











图 10-37 分 治 算法 的 执行 情况 


虽然 这 种 算法 比 标准 的 二 次 算法 有 更 好 的 渐进 性 能 , 但 是 它 却 很 少 使 用 , 因为 对 于 小 的 N 
开销 大 , 而 对 大 的 N 甚至 还 存在 更 好 的 一 些 算法 。 这 些 算法 也 广泛 利用 了 分 治 策略 。 


和 矩阵 乘法 


一 个 基本 的 数值 问题 是 两 个 矩阵 的 乘法 。 图 10-38 给 出 一 个 简单 的 O(N) 算法 计算 C = 
AB, 其 中 A、B 和 C 均 为 NxN 和 矩阵 。 该 算法 直接 来 自 于 矩阵 乘法 的 定义 。 为 了 计算 C,,, RN 
计算 4 的 第 i 行 和 8B 的 第 j 列 的 点 乘 。 按 照 通常 的 惯例 , 数组 下 标 均 从 0 开始 。 
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* Standard matrix multiplication. 
* Arrays start at 0. 
* Assumes a and b are square. 


public static int [ ][ ] multiply( int [ 1L ] a, int [][ 1 b) 


int n = a.length; 
int [][] c = new int[ n ][ n ]; 


for( int i = 0; i < n; i++ ) // Initialization 
for( int j = 0; j <n; j++ ) 
cL i1L i] = 0; 


for( int i = 0; i < n; i+ ) 
for( int j = 0; j < ns j++ ) 


for( int k = 0; k « n; k++ ) 
cLilli] *a[ i JEk] * b[k]E i]; 


return c; 


图 10-38 简单 的 0(N ) 和 矩阵 乘法 


长 期 以 来 兽 认 为 矩阵 乘法 是 需要 工作 量 Q(N ) 的 。 然 而, 在 20 世纪 60 年 代 末 Strassen 指 
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出 了 如 何 打破 Q(N ) 的 屏障 。Strassen 算法 的 基本 想法 是 把 每 一 个 矩阵 都 分 成 4 块 , 如 图 10-39 
所 示 。 此 时 容易 证 明 
Cia SA aBa +4, aBa 
Ci 2 2A,,B, 5 € AB, 
C,, =A, By, +A, Bs, 





图 10-39 {EAB =C 分 解 
C; -A,B,, +A,,B,, 成 4 块 乘 法 
作为 一 个 例子 , 为 了 进行 乘法 AB 
3 4 1 65 6 9 3 
fas E $ $ 1 
AB - 
51729]1 1 6 4 
435 613 141 
我 们 定义 下 列 8 个 N/2 x N/2 阶 和 矩阵 : 
3 4 T 55 5 6 9 3 
ha], g ^|; 7 Bula s B |, 1 
$ 1 29 | ] 8 4 
^s 7|, 3] tals 6 Bai=|, |] Ba=[4 i 


此 时 , 我 们 可 以 进行 8 个 N/2 x N/2 阶 矩 阵 的 乘法 和 4 个 N/2 x N/2 阶 矩 阵 的 加 法 。 这 些 加 法 花 
9t OCN ) 时 间 。 如 果 递 归 地 进行 矩阵 乘法 , 那么 运行 时 间 满 足 
T(N) =8T(N/2) +O(N’) 
从 定理 10. 6 可 以 看 到 7T(N) =O(CN ), 因此 我 们 没有 作出 改进 。 如 同 我 们 在 整数 乘法 看 到 
的 , 必须 把 子 问题 的 个 数 简 化 到 8 LAF. Strassen 使 用 了 类 似 于 整数 乘法 分 治 算法 的 一 种 策略 并 
指出 如 何 仔 细 地 安排 计算 只 使 用 7 次 递归 调用 。 这 7 个 乘法 是 
M, =(42 -A,2)(B,, +B, 2) 
M, (A, +A,2)(B,, +B.) 
M, =(A,, -A,,)(B,, +B, 2) 
M, = (A;a *A,5) By. 
M; =A, (B3 -B,,) 
M, =A,,(B,, -B,, ) 
, M, = (Azı *4,;) B,, 
一 旦 执行 这 些 乘法 , 则 最 后 答案 可 以 通过 下 列 8 次 加 法 得 到 
C,, =M, +M; -M, +M, 
C, 2 =M, +M, 
C,, =M, +M, 
“C, =M, - M, +M, - M, 
可 以 直接 验证 ,这 种 机 敏 的 安排 产生 期 望 的 效果 。 现 在 运行 时 间 满 足 递 推 关系 
T(N) =7T(N/2) +O(N’) 
这 个 递 推 关系 的 解 为 T(N) = O(N’) = O(N"), 
如 往常 一 样 ,有些 细节 需要 考虑 , 如 当 六 不 是 2 的 寡 时 的 情况 , 不 过 还 是 有 些 根本 性 小 缺 
Ro Strassen 算法 在 IN 不 够 大 时 不 如 矩阵 直接 乘法 。 它 也 不 能 推广 到 矩阵 是 稀 朴 ( 即 含有 许多 的 
0 元 素 ) 的 情况 , 而 且 它 还 不 容易 并 行 化 。 当 用 浮 点 数 运 算 时 , 在 数值 上 它 不 如 经 典 的 算法 稳 
定 。 因 此 , 它 只 有 有 限 的 适用 性 。 然 而 , 它 却 代表 着 重要 理论 上 的 里 程 碑 并 证 明了 , 在 计算 机 
科学 中 像 在 许多 其 他 领域 一 样 , 即使 一 个 问题 看 似 具 有 固有 的 复杂 性 , 但 在 被 证 明 以 前 却 始终 
不 可 妄 下 定论 。 
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10.3 动态 规划 


在 前 一 节 , 我 们 看 到 可 以 被 数学 上 递归 表示 的 问题 也 可 以 表示 成 一 种 递归 算法 , 在 许多 情 
形 下 对 朴素 的 穷 举 搜索 得 到 显著 的 性 能 改进 。 

任何 数学 递 推 公式 都 可 以 直接 转换 成 递归 算法 , 但 是 基本 现实 是 编译 器 常常 不 能 正确 对 待 
递归 算法 , 结果 导致 低 效 的 程序 。 当 怀疑 很 可 能 是 这 种 情况 时 , 我 们 必须 再 给 编译 器 提供 一 些 
帮助 , 将 递归 算法 重新 写成 非 递归 算法 , 让 后 者 把 那些 子 问题 的 答案 系统 地 记录 在 一 个 表 内 。 
利用 这 种 方法 的 一 种 技巧 叫 作 动态 规划 (dynamic programming) 。 
10.3.1 用 一 个 表 代替 递归 

在 第 2 章 我 们 看 到 , 计算 斐 波 那 契 数 的 自然 递归 程序 是 非常 低 效 的 一 回忆 图 10-40 所 示 的 程序 的 
运行 时 间 TUN) WAL T(N) zT(N -1) +7T(CN-2)。 由 于 了 7(CN) 作 为 斐 波 那 契 数 满足 同样 的 递 推 关 系 并 
具有 同样 的 初始 条 件 , 因此 ,7(W) 事 实 上 是 以 与 斐 波 那 契 数 相同 的 速度 增长 从 而 是 指数 级 。 


** 


* Compute Fibonacci numbers as described in Chapter 1. 
s/ 

public static int fib( int n ) 

{ 


if(n<=1l) 
return 1; 
else 
return fib( n - 1) + fib( n - 2); 


C590) DUA WHY 


bs 





图 10-40 ”计算 斐 波 那 契 数 的 低 效 算法 


另 一 方面 , 由 于 计算 Py 所 需要 的 只 是 Fy A Fy, 因此 只 需 记 录 最 近 算 出 的 两 个 辈 波 那 
奥数 。 这 导致 图 10-41 中 的 0(NN) 算 法 。 


/ss 
* Compute Fibonacci numbers as described in Chapter 1. 
*/ 


public static int fibonacci( int n ) 


if( n <= 1) 
return 1; 


CONDUNA UNS 


int last = 1; 
int nextToLast = 1; 
int answer = 1; 


for( int i = 2; i <= n; i++ ) 


answer = last + nextToLast; 
nextToLast = last; 
last = answer; 

} 


return answer; 








图 10-41 计算 斐 波 那 契 数 的 线性 算法 


递归 算法 如 此 慢 的 原因 在 于 算法 模拟 了 递 推 。 为 了 计算 FON), 需 存 在 一 个 对 Fy, A Fy 
的 调用 。 然 而 , 由 于 Py PUA Fy 和 Py EAT, 因此 存在 两 个 单独 计算 Fy ,的 调用 。 
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如 果 跟 踪 整 个 算法 , 那么 我 们 可 以 发 现 , Fy, BATHE T 3 次 , Fs 计算 了 5 次 , 而 Fy, WE 8 
次 , 等 等 。 如 图 10-42 所 示 , 元 余 计算 的 增长 是 爆 Fo 

炸 性 的 。 如 果 编译 器 的 递归 模拟 算法 要 是 能 够 保 VA LA Po Ap 
留 一 个 预先 算出 的 值 的 表 而 对 已 经 解 过 的 子 问题 ee p ro P p ye PT 
不 再 进行 递归 调用 , 那么 这 种 指数 式 的 爆炸 增长 I0 P 

就 可 以 避免 。 这 就 是 为 什么 图 10-41 中 的 程序 更 ”图 10-42 跟踪 斐 波 那 契 数 的 递归 计算 
加 有 效 的 原因 。 


作为 第 二 个 例子 , 我 们 看 到 第 7 章 中 如 何 求解 递 推 关系 C(N) = (2/N) Y c(i) +N, 其 中 


C(O) =1。 假设 我 们 想 要 检查 所 得 到 的 解 是 否 在 数值 上 是 正确 的 ， 此 时 可 以 编写 图 10-43 中 的 
简单 程序 来 计算 这 个 递归 问题 。 


public static double eval( intn ) 


if( n == 0 ) 
return 1.0; 9 
else 
i double sum = 0.0 tg gm erum 
- 0.0; Pcr 
for( int i = 0; i < n; i+ ) A epo Le ci co CO 
sum *- eval( i ); N S X X \ 
return 2.0 * 2 / } +n; A^ OC CO CO E co CO co 
él C0 © CO CO 
N-1 
图 10-43 计算 C(N) = 2/N Y. Cli) +N BY 图 10-44 ”跟踪 方法 eval 中 的 递归 计算 


值 的 递归 方法 
这 里 , 递归 调用 又 做 了 重复 的 工作 。 在 这 种 情况 下 , 运行 时 间 TUN) 满足 7(N) = 
P T(i) + N, 因为 如 图 10-44 所 示 , 对 于 从 0 到 WV-1 的 每 一 个 值 都 有 一 个 ( 直接 的 ) 递 归 调 用 ， 


外 加 OCN) 的 附加 工作 (图 10-44 所 示 的 树 我 们 还 在 哪里 看 到 过 ?) 。 对 7(N) 求 解 我 们 发 现 ， 它 
的 增长 是 指数 式 的 。 通 过 使 用 表 , 我 们 得 到 图 10-45 中 的 程序 。 这 个 程序 避免 了 宛 余 的 递归 调 
用 而 以 ON ) 运 行 。 它 并 不 是 一 个 完美 的 程序 , 作为 练习 ,你 应 对 它 进行 简单 的 修改 , 把 它 的 
运行 时 间 简 化 到 OCN) o 


public static double eval( int n ) 
double [ ] c = new double [ n + 1 ]; 


c[ 0 = 1.0; 
for( int i = 1; i <= n; i++ ) 
{ 
double sum = 0.0; 
for( int j = 0; j < i; j++ ) 
sum += c[ j ]; 
cli] = 2.0 * sum / i +i; 


CONDUAWNH 


} 


return c[ n ]; 





图 10-45 使 用 一 个 表 来 计算 CON) =27N > c(i) + N iti 
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10.3.2 ”和 矩阵 乘法 的 顺序 安排 
设 给 定 四 个 矩阵 4、B、C AID, 4 的 维 数 =50 x 10, BW AER =10 x 40, C 的 维 数 =40 x 
30, D 的 维 数 =30 x5。 虽 然 矩 阵 乘法 运算 是 不 可 交换 的 , 但 它 是 可 结合 的 , 这 就 意味 着 矩阵 的 
FFR ABCD 可 以 以 任意 顺序 添加 括号 然后 再 计算 其 值 。 将 两 个 阶 数 分 别 为 p xa 和 9xr 的 矩阵 
以 明显 的 方法 相 乘 , 使 用 por 次 纯 量 乘法 。( 由 于 使 用 诸如 Strassen 算法 这 样 的 理论 上 优越 的 算 
法 并 没有 明显 地 改变 我 们 要 考虑 的 问题 , 因此 我 们 还 是 采用 这 个 传统 性 能 界 。) 那么 , 计算 
ABCD 需要 执行 的 三 个 矩阵 乘法 的 最 好 方式 是 什么 ? 
在 四 个 矩阵 的 情况 下 , 通过 穷 举 搜索 求解 这 个 问题 是 简单 的 , 因为 只 有 五 种 方式 来 给 乘法 
排序 。 对 每 种 情况 计算 如 下 : 
© (A( (BC) D) ) : 计算 BC 需要 10 x40 x30 =12 000 次 乘法 。 计算 (BC)D 的 值 需要 12 000 
次 乘法 计算 BC, 外 加 10 x 30 x 5 =1 500 次 乘法 , 合计 13 500 次 乘法 。 求 (4((BC)D)) 
的 值 需要 13 500 次 乘法 计算 (BC)D, 外 加 50 x 10 x5 =2 500 次 乘法 , 总 计 16 000 次 
e (A(B(CD) )): 计算 CD 需要 40 x30 x5 26 000 次 乘法 。 计 算 BC CD) 的 值 需要 6 000 次 
乘法 计算 CD, 外 加 10 x40 x5 22 000 次 乘法 , 合计 8 000 次 乘法 。 求 (4(B(CCD) )) 的 值 
需要 8 000 次 乘法 计算 B(CD) ,外 加 50 x 10 x5 22 500 次 乘法 , Mit 10 500 次 乘法 。 
e((4B)(CD) ): 计算 CD 需要 40 x30 x 5 26 000 次 乘法 。 计 算 AB 需要 50 x 10 x 40 =20 
000 次 乘法 。 求 ((4B)(CD) ) 的 值 需要 6 000 次 乘法 计算 CD, 20 000 次 乘法 计算 AB , 外 
加 50 x 40 x 5 2 10 000 次 乘法 , 总 计 36 000 次 乘法 。 
e (((AB)C)D) : 计算 4B TH 50 x 10 x 40 =20 000 次 乘法 。 计 算 (4B)C 的 值 需要 20 000 
次 乘法 计算 AB, 外 加 50 x 40 x30 260 000 次 乘法 , 合计 80 000 次 乘法 。 求 (((4B)C) 
D) 的 值 需要 80 000 .次 乘法 计算 (4B)C, 外 加 50 x30 x5 =7 500 次 乘法 ,总计 87 500 次 
乘法 。 
e ((A(BC) )D) ; 计算 BC 需要 1I10 x 40 x 30 =12 000 次 乘法 。 计 算 4(BC) 的 值 需要 12 000 
次 乘法 计算 BC, 外 加 50 x 10 x30 =15 000 次 乘法 , 合计 27 000 次 乘法 。 求 ((4(BC) ) 
D) 的 值 需要 27 000 次 乘法 计算 4(BC), 外 加 50 x30 x5 =7 500 次 乘法 , 总 计 34 500 次 
乘法 。 
上 面 的 计算 表明 , 最 好 的 排列 顺序 方法 大 约 只 用 了 最 坏 排 列 顺序 方法 的 九 分 之 一 的 乘法 次 
数 。 因 此 , 进行 一 些 计算 来 确定 最 优 顺序 还 是 值得 的 。 不 幸 的 是 , 一 些 明 显 的 贪 禁 算 法 似乎 都 
用 不 上 , 而 且 可 能 的 顺序 的 个 数 增长 很 快 。 设 我 们 定义 7T(N) 是 顺序 的 个 数 。 此 时 , T(1) = 
7(2)=1, 7(3) =2, 而 7(4) =5, 正如 我 们 刚刚 看 到 的 。 一 般 地 ， 


T(N) = ETON =i) 


为 此 , REENA, A, =, Ay | LEJET MUR CAL A, ~ "A, AR Aye Ana HG 
时 , 有 7(i) 种 方法 计算 (414,… A) HR T(N 一 让 种 方法 计算 (4;,14;,,…A)。 mit, EMT 
可 能 的 i, 存在 7T(i) TUN - i) TET A, A 7A) (A; Ai .2° An) o 

这 个 递 推 式 的 解 是 著名 的 Catalan 数 , 该 数 指数 增长 。 因 此 , 对 于 大 的 N, 穷 举 搜索 所 有 可 
能 的 排列 原 序 的 方法 是 不 可 行 的 。 然而 , 这 种 计数 方法 为 一 种 解法 提供 了 基础 , 该 解法 基本 上 
是 优 于 指数 的 。 对 于 1<i<WN, 4 c, OBI A, 的 列 数 。 于 是 4, A cati, 否则 矩阵 乘法 是 无 法 
进行 的 。 我 们 将 定义 co 为 第 一 Ail A, 的 行 数 。 

ee C oir ca^ na, Pr RREK Dg SUBE, mn = 
0。 设 最 后 的 乘法 是 (4 -ADCA uu nASu4UU. 其 中 Left <i < Right. 此 时 所 用 的 乘法 次 数 为 
my i oct te Ai). (Aji Arig) 以 及 它们 的 乘积 
所 需要 的 乘法 。 
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如 果 我 们 定义 Wen na 为 在 最 优 排列 顺序 下 所 需要 的 乘法 次 数 , 若 Left < Right , W 
ML +M s1 rigu + Cup aC; righ | 


这 个 方程 意味 着 , 如 果 我 们 有 乘法 4,%…Ahw 的 最 优 的 乘法 排列 顺序 , 那么 子 问题 4 A, 和 
4,,,…Ajin 就 不 能 次 最 优 地 执行 。 这 是 很 清楚 的 ， 因为 否则 我 们 可 以 通过 用 最 优 的 计算 代替 次 
最 优 计算 而 改进 整个 结果 。 

这 个 公式 可 以 直接 转换 成 递归 程序 , 不 过 , 正如 我 们 在 上 一 节 看 到 的 , 这 样 的 程序 将 是 明 
显 低 效 的 。 然 而 , 由 于 大 约 只 有 Mi ww 的 N72 个 值 需要 计算 , 因此 显然 可 以 用 一 个 表 来 存放 
这 些 值 。 进 一 步 的 考查 表明 ,如果 Right - Left =k, 那么 只 有 在 Mi wo 的 计算 中 所 需要 的 那些 值 
M, ÑE x-y <ko 这 告诉 我 们 计算 这 个 表 所 需要 使 用 的 顺序 。 

如 果 除 最 后 答案 Mi,v 外 ， 还 要 显示 实际 的 乘法 顺序 , 那么 可 以 使 用 第 9 章 中 最 短路 径 算法 
的 思路 。 无 论 何 时 改变 Ms uU, 我 们 都 要 记录 i 的 值 , 这 个 值 是 重要 的 。 由 此 得 到 图 10-46 所 
示 的 简单 程序 。 

P Compute optimal ordering of matrix multiplication. 

* c contains the number of columns for each of the n matrices. 

* c[ 0] is the number of rows in matrix 1. 

* The minimum number of multiplications is left in m[ 1 ][ n ]. 

* Actual ordering is computed via another procedure using lastChange. 

* m and lastChange are indexed starting at 1, instead of 0. 

* Note: Entries below main diagonals of m and lastChange 

* are meaningless and uninitialized. 
s static void optMatrix( int [ ] c, long [ ][ ] m, int [ ][ ] lastChange ) 
{ 


M if, Rig 一 


int n = c.length - 1; 


for( int left = 1; left <= n; left++ ) 
m[ left ][ left ] = 0; 
for( int k = 1; k < n; k++) // kis right - left 
for( int left = 1; left <= n - k; left++ ) 
{ 
// For each position 
int right = left + k; 
m[ left ][ right ] = INFINITY; 
for( int i = left; i « right; i++ ) 
{ 
一 ”Tong thisCost = m[ left ][ i ] * m[ i * 1 ][ right] 
+ c[ left -1] «c[ i] * c[ right ]; 


if( thisCost < m[ left ][ right ] ) // Update min 
{ 

m[ left ][ right ] = thisCost; 

lastChange[ left ][ right ] = i; 





El 10-46 SE HABERE TE DCBUS Ae 
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虽然 本 章 重点 不 是 编程 , 但 是 , 我 们 还 是 要 说 , 许多 编程 人 员 倾 向 于 把 变量 名 称 减 缩 成 一 
个 字母 ， 这 并 不 好 。 可 这 里 c、i 和 却 是 作为 单字 母 变量 使 用 的 , 这 是 因为 它们 与 我 们 描述 
算法 所 使 用 的 名 字 是 一 致 的 , 是 非常 数学 化 的 。 不 过 , 一 般 最 好 避免 使 用 字母 1 作为 变量 名 , A 
为 “1” 非 常 像 “1”, 如 果 你 犯 了 一 个 转换 错误 , 那么 可 能 会 陷入 非常 困难 的 调试 麻烦 中 。 

回 到 算法 问题 上 来 。 这 个 程序 包含 三 重 嵌 套 循环 , 容易 看 出 它 以 O(N ) 时 间 运 行 。 参 考 文 
献 描述 了 一 个 更 快 的 算法 , 但 由 于 执行 具体 矩阵 乘法 的 时 间 仍 然 很 可 能 会 比 计算 最 优 顺 序 的 乘 
法 的 时 间 多 得 多 , 因此 我 们 这 个 算法 还 是 相当 实用 的 。 
10.3.3 最 优 二 又 查找 树 











第 二 个 动态 规划 的 例子 考虑 下 列 输入 : 给 定 一 a 0.22 
列 单词 w, w, ns wy 和 它们 出 现 的 固定 的 概率 p, uu -e Be 
piss Pyo 我 们 的 问题 是 要 以 一 种 方法 在 一 棵 二 又 
查找 树 中 安放 这 些 单词 使 得 总 的 期 望 存 取 时 间 最 小 。 H m 
在 一 棵 二 又 查找 树 中 , 访问 深度 d 处 的 一 个 元 素 所 the 0. 02 
需要 的 比较 次 数 是 d+1， 因此 如 果 w, 被 放 在 深度 d, twò 0. 08 
上 ,那么 就 要 将 Sp (1 +d,) 最 小 化 。 图 10-47 ”最 优 二 叉 查 找 树 问题 的 样本 输入 


作为 一 个 例子 ， 图 10-47 表示 在 某 段 课文 中 的 七 个 单词 以 及 它们 出 现 的 概率 。 图 10-48 显 
示 三 棵 可 能 的 二 叉 查找 树 。 它 们 的 查找 代价 如 图 10-49 所 示 。 





3 号 树 
访问 开销 



































图 10-49 三 棵 二 叉 查找 树 的 比较 


第 一 棵 树 是 使 用 贪 禁 方法 形成 的 。 存 取 概率 最 高 的 单词 被 放 在 根 节点 处 。 然 后 左右 子 树 递 
归 形 成 。 第 二 棵 树 是 理想 平衡 查找 树 。 这 两 棵 树 都 不 是 最 优 的 , 由 第 三 棵 树 的 存在 可 以 证 实 。 
由 此 看 到 , 两 个 明显 的 解法 都 是 不 可 取 的 。 

乍 看 有 些 奇 怪 , 因为 问题 看 起 来 很 像 是 构造 哈 夫 曼 编 码 树 ， 正 如 我 们 已 经 看 到 的 ， 它 能 够 
使 用 贪 禁 算 法 求解 。 构 造 一 棵 最 优 二 又 查找 树 更 困难 ,因为 数据 不 只 限于 出 现在 树叶 上 , 还 因 
为 树 必须 满足 二 叉 查 找 树 的 性 质 。 

动态 规划 解 由 两 个 观察 结论 得 到 。 再 次 假设 我 们 想 要 把 (排序 的 ) 一些 单词 ws， Wepro 

Wp-1，Wpish 放 到 一 棵 二 又 查找 树 中 。 设 最 优 二 又 查找 树 以 w, 作为 根 , 其 中 Left <i< Right, 
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此 时 左 子 树 必须 包含 wg, w;_,.， 而 右 子 树 必须 包含 wais s Wen (根据 二 叉 查 找 树 的 性 
质 )。 再 有 , 这 两 棵 子 树 还 必须 是 最 优 的 ,否则 它们 可 以 用 最 优 子 树 代替 ， 从 而 将 给 出 关于 
Wy. …，Wwnw 更 好 的 解 。 这 样 , 我 们 可 以 为 最 优 二 叉 查 找 树 
的 开销 Cy mw 编写 一 个 公式 。 图 10-50 可 能 会 有 帮助 。 pert, 
如 果 Left > Right, 那么 树 的 开销 是 0; 这 就 是 null 情形 ， ~ 入 、 
对 于 二 又 查找 树 总 有 这 种 情形 。 否 则 , 根 花费 p,。 左 子 树 的 far ems 
ental 的 根 为 Ci ,1， 右 子 树 相 对 于 它 的 根 的 代价 为 — 
Was 如 图 10-50 所 示 ， 这 两 棵 子 树 的 每 个 节点 从 v, 开始 图 10-50 最 优 二 又 查找 机 的 村 


都 比 从 它们 对 应 的 根 开始 深 一 层 , 因此 , 必须 加 上 Y^ 和 六 由 ,于 是 得 到 如 下 公式 ， 
C n Right = tain 1p, T Cus ia $ Ca matt F X ki Y») 
= ain 1C, , si F C; +1,Right + Yu 
从 这 个 方程 可 以 直接 编写 一 个 程序 来 计算 最 优 二 又 查找 树 的 值 。 像 通常 一 样 , 具体 的 查找 
树 可 以 通过 存储 使 Ci ji 最 小 化 的 i 值 而 被 保留 。 标 准 的 递归 例 程 可 以 用 来 显示 具体 的 树 。 
图 10-51 显示 将 由 算法 产生 的 表 。 对 于 单词 的 每 个 子 区 域 , 最 优 二 叉 查 找 树 的 值 和 根 都 被 
保留 。 最 底部 的 项 计算 输入 中 全 部 单词 集合 的 最 优 二 又 查 找 树 。 最 优 树 是 图 10-48 中 所 示 的 第 
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图 10-51 ”对 于 样本 输入 的 最 优 二 又 查找 树 的 计算 


对 于 一 个 特定 子 区 域 即 am. . if 的 最 优 二 又 查找 树 的 精确 计算 如 图 10-52 所 示 。 它 是 计算 通 
过 在 根 处 放置 am, and, egg 和 站 所 得 的 最 小 值 树 而 得 到 的 。 例 如 , 当 and 被 放 在 根 处 的 时 候 ， 
左 子 树 包含 am. . am 通过 前 面 的 计算 , (69 0.18) ， 右 子 树 包含 egg. .if( 值 为 0.35) ， 而 Pu + 
Paa * Pegg * Pip =9. 68, 总 价值 为 1.21。 

这 个 算法 的 运行 时 间 是 O(N’), 因为 当 它 实现 的 时 候 我 们 得 到 一 个 三 重 循环 。 对 于 这 个 问 
题 的 一 种 O(N ) 算 法 在 练习 中 进行 了 概述 。 
10.3.4 所 有 点 对 最 短路 径 

我 们 的 第 三 个 也 是 最 后 一 个 动态 规划 应 用 是 计算 有 向 图 C = (V, E) 中 每 一 点 对 间 赋 权 最 短 
路 径 的 一 个 算法 。 在 第 9 章 我 们 看 到 单 源 最 短路 径 问 题 的 一 个 算法 ,该 算法 找 出 从 某 个 任意 点 
s 到 所 有 其 他 顶点 的 最 短路 径 。 这 个 Dijkstra 算法 对 稠密 的 图 以 0( | V1 ) 时 间 运 行 , 但 是 实际 
上 对 稀 疏 的 图 更 快 。 我 们 将 给 出 一 个 短小 的 算法 解决 对 稠密 图 的 所 有 点 对 的 问题 。 这 个 算法 的 
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运行 时 间 为 OC | 站 | ), 它 不 是 对 Dijkstra 算法 | V | 次 迭代 的 一 种 渐进 改进 , 但 对 非常 稠密 的 图 
可 能 更 快 , 原因 是 它 的 循环 更 紧凑 。 如 果 存 在 一 些 负 的 边 值 但 没有 负 值 圈 , 那么 这 个 算法 也 能 
正确 运行 ; 而 Dijkstra 算法 此 时 是 无 效 的 。 








0 + 0.80 + 0.68 = 1.48 0.18 + 0.35 + 0.68 = 1.21 
s 
0.56 + 0.25 + 0.68 = 1.49 0.66 + 0 + 0.68 = 1.34 


图 10-52 Xf am.. if [/) 5391 ( 1. 21, and) 的 计算 


让 我 们 回忆 Dijkstra 算法 的 一 些 重要 细节 (读者 可 以 复习 9.3 节 ) Dijkstra 算法 从 顶点 * Jf 
始 并 分 阶段 工作 。 图 中 的 每 个 顶点 最 终 都 要 被 选 做 中 间 顶 点 。 如 果 当 前 所 选 的 顶点 是 w， 那么 
对 于 每 个 weV, Hid, =min(d,，d,+c,,)。 这 个 公式 表示 ，( 从 s) 到 w 的 最 佳 距离 或 者 是 前 面 
知道 的 从 s 到 zw 的 距离 , 或 者 是 从 s( 最 优 地 ) 到 wv 然后 再 直接 从 v 到 w 的 结果 。 

Dijkstra 算法 为 动态 规划 算法 提供 了 这 样 的 想法 : 我 们 依 序 选择 这 些 顶 点 。 将 定义 D, ,为 从 
v, Sv, FLUR o v, ms 作为 中 间 顶 点 的 最 短路 径 的 权 。 根 据 这 个 定义 , Doiy meu, 其 中 若 
(w, ,vw) 不 是 该 图 的 边 则 cj 是 w o JEE, WREX, D |, | ,是 图 中 从 lv 的 最 短路 径 。 

如 图 10-53 所 示 ， 当 >0 时 可 以 给 D,,, 写 一 个 简单 公式 。 从 wb Bo, RE o, o, s o 


v,—v, Il v,—v, 合并 而 成 的 最 短路 径 , 其 中 的 每 条 路 径 只 使 用 前 -1 个 项 点 作为 中 间 顶 点 。 这 
导致 下 面 的 公式 : 

Dy ij = min| D, ,,;, Dyin t D, nyt 
时 间 需 求 还 是 OC | 了 | ) 。 跟 前 面 的 两 个 动态 规划 例子 不 同 , 这 个 时 间 界 实际 上 尚未 用 另外 的 
方法 降低 。 

因为 第 大 阶段 只 依赖 于 第 (上 - 1) 阶段 ， 所 以 看 来 只 有 两 个 |Y| x | 了 | 矩阵 需要 保存 。 然 
而 , 在 用 开始 或 结束 的 路 径 上 以 作为 中 间 顶 点 对 结果 没有 改进 , 除非 存在 一 个 负 的 圈 。 因 
此 只 有 一 个 矩阵 是 必需 的 , 因为 Dy Dri M Dray = Diu, 这 意味 着 右边 的 项 都 不 改变 值 
且 都 无 需 保存 。 这 个 观察 结果 导致 图 10-53 中 的 简单 程序 , 为 与 Java 的 约定 一 致 , 该 程序 将 顶 
点 从 0 开始 编号 。 

在 一 个 完全 图 中 , 每 一 对 顶点 (在 两 个 方向 上 ) 都 是 连通 的 , 该 算法 几乎 肯定 要 比 Dijkstra 
算法 的 | V | 次 迭代 来 得 快 ,因为 这 里 的 循环 非常 紧凑 。 第 17 行 到 第 22 行 可 以 并 行 执行 , 第 26 
行 到 第 33 行 也 可 并 行 执行 。 因 此 , 这 个 算法 看 来 很 适合 并 行 计 算 。 

动态 规划 是 一 种 强大 的 算法 设计 技巧 , 它 给 解 提供 一 个 起 点 。 它 基本 上 是 首先 求解 一 些 更 
简单 问题 的 分 治 算法 的 范例 , 重要 的 区 别 在 于 这 些 更 简单 的 问题 不 是 原 问 题 的 明显 的 分 割 。 因 
为 子 问 题 反 复 被 求解 , 所 以 重要 的 是 将 它们 的 解 记录 在 一 个 表 中 而 不 是 重新 计算 它们 。 在 某 些 
情况 下 , 解 可 以 被 改进 (虽然 这 确实 不 总 是 明显 的 且 常 常 是 困难 的 ) ， 而 在 另 一 些 情 况 下 , 动态 
规划 方法 则 是 所 知道 的 最 好 的 处 理 方法 。 

在 某 种 意义 上 , 如果 你 看 出 一 个 动态 规划 问题 , 那么 你 就 看 出 所 有 的 动态 规划 问题 。 动 态 
规划 更 多 的 例子 在 一 些 练习 和 参考 文献 中 可 以 找到 。 
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[** 

* Compute all-shortest paths. 

x a[ ][ ] contains the adjacency matrix with 

x a[ i ][ i ] presumed to be zero. 

* d[ ] contains the values of the shortest path. 

* Vertices are numbered starting at 0; all arrays 
* have equal dimension. A negative cycle exists if 
x d[ i ][ i ] is set to a negative value. 

* Actual path can be computed using path[ ][ ]. 

* NOT A VERTEX is -1 

x/ i 

public static void allPairs( int [ ][ ] a, int [ ]1[ ] d, int [ ][ ] path ) 





= A Lm 
NF C5 iD O0 4 ON VA Hs UNS 


13 
14 int n = a.length; 


16 // Initialize d and path 
17 for( int i = 0; i « n itt) 
18 for( int j = 0; j < n; j++ ) 


{ 
20 à[.3 ]L 3 ] =al i 1L 3 Is 
21 path T3E4 T «.N OT A VERTEX; 
} 


24 for( int k = 0; k < n; k++ ) 

25 // Consider each vertex as an intermediate 

26 for( int i = 0; i < n; i++ A 

27 for( int j = 0; j 

28 rU LE DOLI) ea C) 


30 // Update shortest path 
31 d[i][31-7d[ i JLk ] * d[k JL 3 1; 
32 path[ i ][ 3 ] =k; 

} 





图 10-53 ”所 有 点 对 最 短路 径 
10.4 随机 化 算法 


假设 你 是 一 位 教授 , 正在 布置 每 周 的 程序 设计 作业 。 你 想 确保 学 生 们 自己 完成 自己 的 程 
序 , 或 他 们 至 少 理解 他 们 提交 上 来 的 程序 。 一 种 解决 方案 是 在 每 个 程序 呈 交 的 当天 进行 一 次 测 
验 。 另 外 , 由 于 这 些 测验 要 花费 很 多 的 时 间 , 因此 实际 上 只 能 对 大 约 半 数 的 程序 可 以 这 么 做 。 
你 的 问题 是 决定 什么 时 候 进行 这 些 测验 。 

当然 ,如果 事先 宣布 这 些 测验 , 那么 这 可 以 解释 为 对 得 不 到 测验 的 50% 程序 的 默许 作弊 。 于 
是 , 可 能 采取 事先 不 宣布 而 对 半数 的 程序 进行 测验 的 策略 , 但 是 学 生 们 很 快 就 会 搞 清 楚 这 种 策略 。 
另 一 种 可 能 是 对 看 似 重要 的 程序 进行 测验 , 但 这 又 很 可 能 随 着 学 期 的 更 替 而 泄露 类 似 的 测验 规律 。 
学 生 们 会 散布 都 考 些 什么 样 的 题 的 传闻 , 这 种 方法 很 可 能 经 过 一 个 学 期 以 后 就 没有 保密 价值 了 。 

消除 这 些 王 端的 一 种 方法 是 使 用 一 枚 硬币 。 测 验 对 每 一 个 程序 进行 (举行 测验 远 不 如 给 测 
验 评 分 消耗 时 间 ), 但 在 开始 上 课时 教授 将 掷 硬 币 来 决定 是 否 要 举行 测验 。 采 用 这 种 方式 , 在 上 
课 前 不 可 能 知道 测验 是 否 要 发 生 ， 而 测验 的 规律 学 期 和 学 期 之 间 也 不 重复 。 这样, 不管 前 面 的 
测验 是 什么 规律 , 学 生 只 能 预计 测验 将 以 50% 的 概率 发 生 。 这 种 方法 的 缺点 是 有 可 能 整个 学 期 
都 没有 测验 , 不 过 这 不 太 可 能 发 生 , 除非 硬币 有 问题 。 每 个 学 期 测验 的 期 望 次 数 是 程序 数目 的 
一 半 , 并 且 测 验 的 次 数 将 以 高 概率 不 会 太 偏离 这 个 数目 。 
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这 个 例子 叙述 了 我 们 称 之 为 随机 化 算法 (randomized algorithm) 的 方法 。 在 算法 期 间 , 随机 数 
至 少 有 一 次 用 于 决策 。 该 算法 的 运行 时 间 不 只 依赖 于 特定 的 输入 , 而 且 依赖 于 所 出 现 的 随机 数 。 

一 个 随机 化 算法 的 最 坏 情 形 运 行 时 间 常 常 和 非 随机 化 算法 的 最 坏 情形 运行 时 间 相 同 。 重 要 
的 区 别 在 于 , 好 的 随机 化 算法 没有 坏 的 输入 , 而 只 有 坏 的 随机 数 (相对 于 特定 的 输入 )。 这 看 起 
来 像 是 只 是 哲学 上 的 差别 , 但 是 实际 上 它 是 相当 重要 的 , 正如 下 面 的 例子 所 示 。 

考虑 快速 排序 的 两 种 变形 。 方 法 A 用 第 一 个 元 素 作 为 枢纽 元 , 而 方法 B 使 用 随机 选 出 的 元 
素 作 为 枢纽 元 。 在 这 两 种 情形 下 , 最 坏 情 形 运 行 时 间 都 是 9(N ) ,因为 在 每 一 步 都 有 可 能 选取 
最 大 的 元 素 作 为 枢纽 元 。 两 种 最 坏 情形 之 间 的 区 别 在 于 , 存在 特定 的 输入 总 能 够 出 现在 A 中 并 
产生 坏 的 运行 时 间 。 当 每 一 次 给 定 已 排序 数据 时 , 方法 A 都 将 以 9(CN ) 时 间 运 行 。 如 果 方法 B 
以 相同 的 输入 运行 两 次 , 那么 它 将 有 两 个 不 同 的 运行 时 间 , 这 依赖 于 什么 样 的 随机 数 出 现 。 

在 运行 时 间 的 计算 中 我 们 通 篇 假设 所 有 的 输入 都 是 等 可 能 的 。 实 际 上 这 并 不 成 立 , 因为 例 
如 几乎 排序 的 输入 常常 要 比 统计 上 期 望 的 出 现 得 多 得 多 , 而 这 会 产生 一 些 问题 , 特别 是 对 快速 
排序 和 二 又 查找 树 。 通 过 使 用 随机 化 算法 , 特定 的 输入 不 再 是 重要 的 。 重 要 的 是 随机 数 , 我 们 
可 以 得 到 一 个 期 望 的 运行 时 间 , 此 时 我 们 是 对 所 有 可 能 的 随机 数 取 平均 而 不 是 对 所 有 可 能 的 输 
入 求 平均 。 使 用 随机 枢纽 元 的 快速 排序 算法 是 一 个 0( NlogN) 期 望 时 间 算 法 。 这 就 是 说 , 对 任 
意 的 输入 , 包括 已 经 排序 的 输入 , 根据 随机 数 统计 学 理论 , 运行 时 间 的 期 望 值 为 0( NlogN)。 期 
望 运 行 时 间 界 至 少 要 强 于 平均 时 间 界 , 不 过 , 当然 要 比 对 应 的 最 坏 情形 界 弱 。 另 一 方面 , 正如 
我 们 在 选择 问题 中 所 看 到 的 , 得 到 最 坏 情 形 时 间 界 的 那些 解决 方案 常常 不 如 它们 针对 平均 情形 
界 的 解法 那样 实用 。 但 是 , 随机 化 算法 却 通常 是 实用 的 。 

随机 化 算法 隐 式 地 用 于 完美 散 列 和 通用 散 列 ( 见 5.7 节 和 5.8 节 )。 在 这 一 节 , 我 们 将 考查 随 
机 化 的 两 个 用 途 。 首 先 , 将 介绍 以 0(logN) 期 望 时 间 支 持 二 又 查找 树 操作 的 新 颖 的 方案 。 这 意味 着 不 
存在 坏 的 输入 , 只 有 坏 的 随机 数 。 从 理论 的 观点 看 , 这 并 没有 那么 特别 令 人 振奋 ， 因 为 平衡 查找 树 在 
最 坏 情形 下 达到 了 这 个 界 。 然 而 , 随机 化 的 使 用 导致 了 对 查找 、 插入、 特别 是 删除 相对 简单 的 算法 。 

第 二 个 应 用 是 测试 大 数 是 否 是 素数 的 随机 化 算法 。 我 们 介绍 的 这 种 算法 运行 很 快 但 偶尔 会 
有 错 。 不 过 , 发 生 错 误 的 概率 可 以 小 到 忽略 不 计 。 
10.4.1 随机 数 发 生 器 

由 于 我 们 的 算法 需要 随机 数 , 因此 必须 要 有 一 种 方法 来 生成 它 。 实 际 上 , 真正 的 随机 性 在 
计算 机 上 是 不 可 能 生成 的 , 因为 这 些 数 将 依赖 于 算法 , 从 而 不 可 能 是 随机 的 。 一 般 说 来 , 产生 
伪 随 机 ( pseudorandom) 数 就 足够 了 ，, 伪 随 机 数 看 起 来 像 是 随机 的 数 。 随 机 数 有 许多 已 知 的 统计 
性 质 ; 伪 随 机 数 满足 大 部 分 的 这 些 性 质 。 令 人 惊奇 的 是 , 这 说 起 来 容易 , 做 起 来 可 就 难 多 了 。 

假设 我 们 只 需要 抛 一 枚 硬币 ; 这 样 ,必然 随机 地 生成 0( 正 面 ) 或 1( 反 面 )。 一 种 做 法 是 考 
查 系统 时 钟 。 这 个 时 钟 可 以 把 时 间 记 录 成 整数 , 而 这 个 整数 是 从 某 个 起 始 时 刻 开始 计数 的 秒 
数 。 此 时 我 们 可 以 使 用 最 低 的 一 位 二 进 制 位 。 问 题 在 于 , 如 果 需 要 的 是 随机 数 序列 , 那么 这 种 
方法 就 不 理想 了 。1 秒 是 一 个 长 的 时 间 段 , 在 程序 运行 时 这 个 时 钟 可 能 根本 没 变 化 。 即 使 时 间 
用 微 秒 的 单位 记录 ,如果 程 序 自 身 正 在 运行 , 那么 所 生成 的 数 的 序列 也 远 不 是 随机 的 ， 因 为 在 
对 发 生 器 的 多 次 调用 之 间 的 时 间 在 每 次 程序 调用 时 可 能 都 是 一 样 的 。 此 时 我 们 看 到 , 真正 需要 
的 是 随机 数 的 序列 ( sequence)” 。 这 些 数 应 该 独立 地 出 现 。 如 果 一 枚 硬币 抛 出 后 出 现 的 是 正面 ， 
那么 下 一 次 再 抛 出 时 出 现 正 面 或 反面 应 该 还 是 等 可 能 的 。 

产生 随机 数 的 最 简单 的 方法 是 线性 同 余 数 发 生 器 , 它 于 1951 年 由 Lehmer 首先 描述 。 数 mn ， 
x,. e RERI E 

x,,, =A x, mod M 

为 了 开始 这 个 序列 , 必须 给 出 xy 的 某 个 值 。 这 个 值 叫 作 种 子 (seed) 。 如 果 x 20, 那么 这 个 序列 远 





OQ 在 本 节 的 其 余部 分 我 们 将 使 用 随机 代替 伪 随 机 
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不 是 随机 的 , 但 是 如 果 A 和 MM 选择 得 正确 , 那么 任何 其 他 的 1<x, <M 都 是 同等 有 效 的 。 如 果 以 
是 素数 , 那么 x, 就 绝 不 会 是 0。 作为 一 个 例子 , WR M=11, AT, 而 xzo=1, 那么 所 生成 的 数 为 
ta Bs Ze 3B; 10, 4,, 0, Ys 
注意 , 在 M-1IL=10 个 数 以 后 , 序列 将 重复 。 因 此 , 这 个 序列 的 周期 为 W -1, 它 是 尽 可 能 地 大 
CARTES HE) 。 如 果 W 是 素数 , 那么 总 存在 对 4 的 一 些 选择 能 够 给 出 全 周期 (full period ) 
M-1。 对 4 的 有 些 选择 则 得 不 到 这 样 的 周期 ; 如 果 4 =5 而 xo =1, 那么 序列 有 一 个 短 周 期 5。 
E E TE A E P a 

如 果 M AIRA, 比如 31 比特 的 素数 , 那么 对 于 大 部 分 的 应 用 来 说 周期 应 该 是 非常 大 的 。 
Lehmer 建议 使 用 31 比特 的 素数 M 22" -1 =2 147 483 647。 对 于 这 个 素数 , A =48271 是 给 出 全 
周期 发 生 器 的 许多 值 中 的 一 个 。 它 的 用 途 已 经 被 深入 研究 并 被 这 个 领域 的 专家 推荐 。 后 面 我 们 
将 看 到 , 对 于 随机 数 发 生 器 ,贸然 修 改 通 常 意味 着 失败 , 因此 最 好 还 是 继续 坚持 使 用 这 个 公式 
直到 有 新 的 成 果 发 布 。 | 

这 像 是 一 个 实现 起 来 简单 的 例 程 。 通 常 , 类 变量 用 来 存放 x 的 序列 中 的 当前 值 。 当 调试 一 
个 使 用 随机 数 的 程序 的 时 候 , 大 概 最 好 是 置 z =1, 这 使 得 总 是 出 现 相同 的 随机 序列 。 当 程序 正 
常 工 作 时 , 或 者 可 以 使 用 系统 时 钟 , 或 者 要 求 用 户 输入 一 个 值 作为 种 子 。 

返回 一 个 位 于 开 区 间 (0，1) 的 随机 实数 (0 和 1 是 不 可 能 取 的 值 ) 也 是 常见 的 情况 ; 这 可 以 
通过 除 以 必得 到 。 由 此 可 知 , 在 任意 闭 区 间 [a，B] 的 随机 数 可 以 通过 规范 化 来 计算 。 这 将 产 
生 图 10-54 中 “明显 的 ”类 , 不 过 , 该 类 是 不 正确 的 。 

public class Random 


{ 
private static final int A = 48271; 
private static final int M = 2147483647; 


public Random( ) 
{ 

state = System.currentTimeMillis( ) % Integer.MAX VALUE ; 
} 


/** 
* Return a pseudorandom int, and change the 
* internal state. DOES NOT WORK. 
* (return the pseudorandom int. 
*/ 
public int randomIntWRONG( ) 
{ 


return state = ( A* state ) % M; 


/** 
* Return a pseudorandom double in the open range 0..1 
* and change the internal state. 
* @return the pseudorandom double. 
*/ 
public double random0 1( ) 
{ 


return (double) randomInt( ) / M; 
} 


private int state; 





图 10-54 不 能 正常 工作 的 随机 数 发 生 器 
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这 个 类 的 问题 是 乘法 可 能 溢出 ; 虽然 这 不 是 一 个 错误 , 但 是 它 影 响 计 算 的 结果 ,从 而 影响 
伪 随 机 性 。 虽 然 我 们 可 以 使 用 64 比特 的 Long 型 整数 , 但 它 将 减 慢 计算 速度 。Schrage 给 出 一 
个 过 程 , 在 这 个 过 程 中 所 有 的 计算 均 可 在 32 位 机 上 进行 而 不 会 溢出 。 我 们 计算 M/A 的 商 和 余 
数 并 把 它们 分 别 定义 为 人 @ 和 RR。 在 上 述 情况 下 , 8@ =44488, R=3 399, HR<Q, 我 们 有 

Ax; 


x,,, =Ax,modM = Ax, -WU 到 | sib -«l5 | «ul | -u|% | 


nli] die |) 
由 于 =O |S | + smod ,因此 可 以 代入 到 右边 的 第 一 个 Ax, 并 得 到 


Xizi -^(ols | +x,mod e] -«ls | -u(i | = Fl) 
= (AQ—M) [S | emo «(15 | - [Fe ]) 
(AM =AQ+R, 因此 4@-W= -R。 于 是 我 们 得 到 


x,,, - A( x,mod Q) -«l$ | +m(| | - Gl) 
mac) = [5| - [Fe | 或 者 是 0, 或 者 是 1 因为 两 项 都 是 整数 而 它们 的 差 非 0 即 1。 因 此 ， 
我 们 有 
x,,, =A(«,mod Q) -R || + M8( x, ) 


快速 验证 表明 , FA R « 9, 故 所 有 的 余 项 均 可 计算 而 没有 溢出 (这 就 是 选择 4 = 48 271 的 原因 
之 一 ) 。 此 外 , 仅 当 余 项 的 值 小 于 0 时 6(x;) =1。 因 此 5(x;) 不 需要 显 式 地 计算 而 是 可 以 通过 简 
单 的 测试 来 确定 。 这 导致 图 10-55 中 修正 后 的 程序 。 


public class Random 


private static final int A = 48271; 
private static final int M = 2147483647; 
private static final int Q= M/A; 
private static final int R = M % A; 


/** 

* Return a pseudorandom int, and change the internal state. 
* @return the pseudorandom int. 

*/ 

public int randomInt( ) 


int tmpState = A * ( state % Q ) - R >» (state / Q ); 


if( tmpState >= 0 ) 

state = tmpState; 
else 

state = tmpState + M; 


return state; 


} 


// Remainder of this class is the same as Figure 10.54 





图 10-55 不 溢出 的 随机 数 发 生 器 
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人 们 可 能 会 想到 要 假设 所 有 的 机 器 在 它们 标准 的 库 中 都 有 一 个 至 少 像 图 10-55 中 的 程序 那 

么 好 的 随机 数 发 生 器 , 但 很 遗憾 , 情况 并 非 如 此 。 许 多 库 中 的 发 生 器 基于 函数 
x,,, = (Ax, + C) mod 28 

其 中 8B 的 选取 要 匹配 机 器 整数 的 比特 位 数 , 而 C 是 奇数 。 不 幸 的 是 , 这 些 发 生 器 总 是 产生 在 奇 
偶 之 间 交 蔡 的 x; 的 值 一 一 很 难 具 有 理想 的 性 质 。 事实 上 , 低位 (充其量 ) 是 以 周期 2" 循环 ， 
许多 其 他 随机 数 发 生 器 要 比 图 10-55 所 提供 的 随机 数 发 生 器 的 循环 (周期 ) 小 得 多 。 这 些 发 生 需 
对 于 需要 长 的 随机 数 序列 的 情况 是 不 合适 的 。Java 库 和 UNIX 的 arana48 函数 使 用 这 种 形式 
的 一 个 发 生 器 。 不 过 , 它们 使 用 48 比特 线性 同 余 发 生 器 并 且 只 返回 高 32 比特 , 这 样 , 避免 了 在 
低 阶 比特 位 上 的 循环 问题 。 用 到 的 常数 是 4 =25 214 903 917, B=48 以 及 C =11。 

因为 Java 提供 64 比特 的 Long 型 整数 ， 所 以 用 标准 Java 实现 一 个 基本 的 48 比特 随机 数 发 
生 器 用 一 页 代码 就 可 以 展示 。 它 比 31 比特 随机 数 发 生 器 略 慢 一 点 ， 但 慢 得 不 多 ， 却 得 到 了 一 
个 明显 长 得 多 的 周期 。 图 10-56 展示 了 这 种 随机 数 发 生 器 的 一 个 很 好 的 实现 。 — 


/** 

* Random number class, using a 48-bit 
* linear congruential generator. 

*/ 
public class Random48 


private static final long A = 25 214 903 917L; 
private static final long B = 48; 

private static final long C = 11; 

private static final long M = (1L<<B); 

private static final long MASK = M-1; 


MO O00 4 OV UA -& CS NS — 


public Random48( ) 
{ state = System.nanoTime( ) & MASK; } 


public int randomInt( ) 
{ return next( 32 ); ] 


public double randomO 1( ) 


{ return ( ( (long) ( next( 26 ) ) << 27 ) + next( 27 ) / (double) ( 1L << 53 ); } 


/[** 

* Return specified number of random bits 

* (param bits number of bits to return 

* Greturn specified random bits 

* (throws IllegalArgumentException if bits is more than 32 
* 
private int next( int bits ) 


if( bits <= 0 || bits > 32 ) 
throw new IllegalArgumentException( ); 


state = (A * state + C ) & MASK; 


return (int) ( state »»» ( B - bits ) ); 


private long state; 


Fg 10-56 48 比特 随机 数 发 生 器 
第 7~10 行 给 出 了 随机 数 发 生 器 的 基本 常数 。 因 为 M 是 2 的 究 ， 所 以 我 们 可 以 用 位 操作 。 
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M =2 可 以 用 一 个 位 移 来 计算 , 并且 可 以 用 一 个 按 位 与 操作 来 取代 取 余 操作 %。 这 是 因为 
MASK =M -1 的 低位 48 比特 全 是 1， 于 是 跟 MASK 进行 一 次 按 位 与 操作 的 效果 就 是 得 到 一 个 48 
比特 的 结果 。 

例 程 next 使 用 比 低 位 更 随机 的 高 阶 位 ， 从 计算 状态 返回 一 个 指定 的 随机 位 数 (最 多 是 
32). 5834 行 是 对 之 前 讨论 过 的 线性 同 余 公 式 的 一 个 直接 应 用 ， 第 36 行 是 一 个 位 移 (高 位 补 堆 
以 避免 负数 )。 在 两 次 相互 独立 的 调用 中 ，randomInt 得 到 32 比特，random0_1 得 到 53 比 
特 (表示 尾数 ，daouble 型 的 其 他 11 比特 表示 指数 ) 。 

对 很 多 应 用 而 言 ，48 比特 随机 数 发 生 器 (甚至 31 比特 发 生 器 ) 是 非常 好 用 的 ， 在 64 比特 
算术 下 的 实现 很 简单 ， 并 且 用 的 空间 少 。 然 而 ， 线 性 同 余 发 生 器 对 一 些 应 用 是 不 适用 的 一 如 密 
码 系统 ， 或 是 需要 大 量 高 度 独立 并 且 无 关联 的 随机 数 的 模拟 。- 在 那些 情况 下 ; 应 该 使 用 Java 的 
java. security. SecureRandom 类 。 

10.4.2 跳跃 表 

随机 化 的 第 一 个 用 途 是 以 0(logN) 期 望 时 间 支 持 查 找 和 插入 的 数据 结构 。 正 如 在 本 节 介 绍 
中 所 提 到 的 , 这 意味 着 对 于 任意 输入 序列 的 每 一 次 操作 的 运行 时 间 都 有 期 望 值 0(logV) ,其 中 
的 期 望 是 基于 随机 数 发 生 器 的 。 能 够 执行 添加 删除 和 所 有 涉及 排序 的 操作 , 并 且 能 够 得 到 与 二 
又 查找 树 的 平均 时 间 界 匹配 的 期 望 时 间 界 。 

最 简单 的 支持 查找 的 可 能 的 数据 结构 是 链表 。 图 10-57 是 一 个 简单 的 链表 。 执 行 一 次 查找 
的 时 间 正 比 于 必须 考查 的 节点 个 数 , 个 数 最 多 是 N。 

(CB42 BTS -L022 
图 10-57 简单 链表 


图 10-58 表示 一 个 链表 , 在 该 链表 中 , 每 隔 一 个 节点 就 有 一 个 附加 的 指向 它 在 表 中 前 两 个 
位 置 上 的 节点 的 链 。 正 因为 如 此 ; 在 最 坏 情形 下 最 多 考查 [ N/2 1+ 1 个 节点 。 

将 这 种 想法 扩展 , 我 们 得 到 图 10-59。 这 里 , 每 个 第 4 节点 都 有 一 个 链接 到 该 节点 前 方 的 下 
一 个 第 4 节点 的 链 。 只 有 [| N/4 142 个 节点 被 考查 。 


aa O li 


10-58 带 有 链接 到 前 面 第 2 个 表 元 图 10-59 带 有 链接 到 前 面 第 4 个 表 元 
素 的 链 的 链表 素 的 链 的 链表 

这 种 跳 路 幅度 的 一 般 情 形 如 图 10-60 所 示 。 每 个 第 2! 节点 就 有 一 个 链接 到 这 个 节点 前 方 下 
一 个 第 2' 节点 的 链 。 链 的 总 个 数 仅 仅 是 加 倍 , 但 现在 在 一 次 查找 中 最 多 只 考查 [ log IN MIS o 
不 难看 到 , 一 次 查找 总 的 时 间 消耗 为 O(log N), 这 是 因为 查找 由 向 前 到 一 个 新 的 节点 或 者 在 同 
一 节点 下 降 到 低 一 级 的 链 组 成 。 在 一 次 查找 期 间 每 一 步 总 的 时 间 消耗 最 多 为 0(log N) 。 注 意 ， 
在 这 种 数据 结构 中 的 查找 基本 上 是 折 半 查找 (binary search) 。 

这 种 数据 结构 的 问题 是 进行 有 效 的 插入 太 过 于 呆板 。 使 这 种 数据 结构 可 用 的 关键 是 稍微 放 
宽 结 构 条 件 。 我 们 将 带 有 上 个 链 的 节点 定义 为 上 阶 节点 (level k node) 。 如 图 10-60 所 示 , FER k 
阶 节 点 上 的 第 i 阶 (过门 链 链接 的 下 一 个 节点 至 少 具有 i 阶 。 这 是 一 个 容易 保留 的 性 质 ; 不 过 ， 
图 10-60 指出 比 它 限制 性 更 强 的 性 质 。 这 样 , 我 们 把 第 i 个 链接 到 前 面 第 2 个 节点 的 链 这 种 限 
制 去 掉 , 而 代 之 上 面 稍 松 一 些 的 限制 条 件 。 

当 需 要 插入 新 元 素 的 时 候 , 我 们 为 它 分 配 一 个 新 的 节点 。 此 时 , 我 们 必须 决定 该 节点 是 多 
少 阶 的 。 考 查 图 10-60 可 以 发 现 , 大 约 一 半 的 节点 是 1 阶 节点 ,大约 1/4 的 节点 是 2 阶 节点 , 通 
常 , 大约 1/2' 的 节点 是 i 阶 节点 。 我 们 按照 这 个 概率 分 布 随机 选择 节点 的 阶 数 。 最 容易 的 方法 
是 抛 一 枚 硬币 直到 正面 出 现 并 把 抛 硬币 的 总 次 数 用 做 该 节点 的 阶 数 。 图 10-61 显示 一 个 典型 的 
跳跃 表 ( skip list) 。 
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Bg 10-60 ” 带 有 链接 到 前 面 第 2 个 表 元 素 的 链 的 链表 图 10-61 一 个 跳跃 表 


给 出 上 面 的 分 析 以 后 , 跳跃 表 算法 的 描述 就 简单 了 。 为 执行 一 次 查找 , 我 们 在 头 节点 从 最 
高 阶 的 链 开 始 , 沿 着 这 个 阶 一 直 走 直至 找到 大 于 我 们 正在 寻找 的 节点 的 下 一 个 节点 (或 者 是 
nul1) 前 停 下 。 这 时 , 我 们 转 到 低 一 阶 的 阶 并 继续 这 种 方法 。 当 进行 到 一 阶 停止 时 , 或 者 我 们 
位 于 正在 寻找 的 节点 的 前 面 , 或 者 它 不 在 这 个 表 中 。 为 了 执行 一 次 insert 操作 , 我 们 像 在 执 
行 一 次 查找 时 那样 进行 , 始终 记 住 每 一 个 使 我 


们 转 到 一 个 更 低 阶 的 节点 。 最 后 , 将 新 节点 | | «E ji I 
( 它 的 阶 是 随机 确定 的 ) 拼接 到 链表 中 。 操 作 见 | am hom fen 2o m5 
图 10-62, m J 

粗略 分 析 指出 , 由 于 在 每 一 阶 的 节点 的 期 ==. eae ef 
望 个 数 没有 从 原 ( 非 随机 化 的 ) 算 法 改变 , 因此 “| thane oi [HEP IS arcs 


预计 穿越 同 阶 上 的 节点 的 总 的 工作 量 是 不 变 图 10-62 “插入 前 和 插入 后 的 跳跃 表 
的 。 它 告诉 我 们 , 这 些 操作 具有 O(log N) 的 期 
BOTH. “MR, 更 正式 的 证 明 是 需要 的 , 但 它 跟 这 里 的 分 析 没 有 太 大 的 区 别 。 

跳跃 表 类 似 于 散 列 表 , 它们 都 需要 估计 链表 中 的 元 素 个 数 ( 从 而 阶 的 数目 可 以 确定 ) 。 如 果 
得 不 到 这 种 估计 , 那么 我 们 可 以 假设 一 个 大 的 数 或 者 使 用 一 种 类 似 于 再 散 列 (rehash ) 的 方法 
经 验 表明 , 跳跃 表 如 许多 平衡 查找 树 实现 方法 一 样 有 效 ， 当 然 , 用 多 种 语言 实现 都 会 简单 得 多 。 
10.4.3 素性 测试 

在 这 一 节 , 我 们 考查 确定 一 个 大 数 是 否 是 素数 的 问题 。 正 如 在 第 2 章 末 尾 谈 到 的 , 某 些 密 
人 码 方案 依赖 于 大 数 分 解 的 困难 性 ,比如 将 一 个 400 位 数 分 解 成 两 个 200 位 的 素数 相 乘 。 为 了 实 
现 这 种 方案 , 需要 一 种 生成 这 两 个 大 素数 的 方法 。 如 果 d 是 数 NN 中 的 数字 的 位 数 , 那么 测试 能 


f A 3 到 VX 的 奇数 整除 的 明显 的 方法 大 约 需要 VN 次 除法 ， 它 大 约 为 2”, 可 这 对 于 200 位 


的 整数 是 完全 不 实际 的 方法 。 

在 这 一 节 , 我 们 将 给 出 一 个 可 以 测试 素性 的 多 项 式 时 间 算 法 。 如 果 这 个 算法 宣称 一 个 数 不 
是 素数 , 那么 我 们 可 以 肯定 这 个 数 不 是 素数 。 如 果 该 算法 宣称 一 个 数 是 素数 , 那么, 这 个 数 将 
以 高 概率 但 不 是 百分之百 地 肯定 是 素数 。 错 误 的 概率 不 依赖 于 被 测试 的 特定 的 数 , 而 是 依赖 于 
由 算法 做 出 的 随机 选择 。 因 此 , 这 个 算法 偶尔 会 出 错 , 不 过 我 们 将 会 看 到 , 我 们 可 以 让 出 错 的 
比率 任意 地 小 。 

算法 的 关键 是 著名 的 费 马 ( Fermat) 定 理 。 

定理 10. 10( 费 马 小 定理 ) ”如 果 P 是 素数 , HO«A«P, 那么 4”'=1(mod P) 

证 明 : 

这 个 定理 的 证 明 可 以 在 任 一 本 数论 的 教科 书 中 找到 。 口 

例如 , 由 于 67 是 素数 , 因此 2”=1( mod 67) 。 这 提出 了 测试 一 个 数 N 是否 是 素数 的 算法 : 
只 要 检验 一 下 是 否 2"…=1(mod N), t2" #1 (mod N) 不 成 立 , 那么 可 以 肯定 N 不 是 素数 。 
另 一 方面 , 如 果 等 式 成 立 , 那么 N 很 可 能 是 素数 。 例 如 , gig 2' =1(mod N) 但 不 是 素数 的 最 
小 的 NN 是 N=341。 

这 个 算法 偶尔 会 出 错 , 但 问题 是 它 总 出 相同 的 一 些 错 误 。 换 句 话 说 , 存在 N 的 一 个 固定 的 集 
合 , 对 于 这 个 集合 该 方法 行 不 通 。 我 们 可 以 尝试 将 该 算法 随机 化 如 下 : 随机 取 1<4<N-1。 如 果 
A‘ =1(mod N), 则 宣布 N 可 能 是 素数 , 否则 宣布 N 肯定 不 是 素数 。 如 果 N =341 而 4 =3, 那么 
3“ =56( mod 341)。 因 此 , 如 果 算 法 碰巧 选择 4 =3, 那么 它 将 对 于 N=341 得 到 正确 的 答案 。 
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虽然 这 看 起 来 没有 问题 , 但 是 却 存在 一 些 数 , 对 于 4 的 大 部 分 选择 它们 甚至 可 以 骗 过 该 算 
法 。 这 样 的 数 集 叫 作 Carmichael 数 , 这 些 数 不 是 素数 , 可 是 对 所 有 与 NN ERAY O <A <N AI E 
A" z1(mod N)。 这 样 最 小 的 数 是 561。 因 此 , 我 们 还 需要 一 个 附加 的 测试 来 改进 不 出 错 
的 几率 。 

在 第 7 章 , 我 们 证 明 过 一 个 关于 平方 探测 ( quadratic probing) 的 定理 。 这 个 定理 的 特殊 情 
况 如 下 : 

定理 10. 11 iR P 是 素数 且 0<X<P, BAX =1( mod P) 仅 有 的 两 个 解 为 X=1, 已 -1。 

WEAR: 

X =1( mod P) HAF X -1=0(mod P), PAB, (X-1)(X+1) =O0(mod P), HF P 
是 素数 , O<X <P, 因此 P 必然 是 或 者 整除 (X-1) ,或 者 整除 (Xf+fT) ， 由 此 推出 定理 。 口 

因此 , 如 果 在 计算 4 (mod N) 的 任 一 时 刻 我 们 发 现 违背 了 该 定理 , 那么 可 以 断言 入 肯定 
不 是 素数 。 如 果 使 用 2. 4.4 节 的 方法 pow, 那么 我 们 看 到 将 有 几 种 机 会 来 实现 这 种 测试 。 修 改 
执行 mod N 运算 的 例 程 并 应 用 定理 10. 11 的 测试 。 这 种 方法 在 图 10-63 中 以 伪 码 实现 。 





l /** ; 
2 x Method that implements the basic primality test. If witness does not return 1, 
3 * n is definitely composite. Do this by computing a^i (mod n) and looking for 
+ * nontrivial square roots of 1 along the way. 
5 x/ 
6 private static long witness( long a, long i, long n ) 
7 { 
8 if( i == 0 ) 
9 return 1; 
10 
11 long x = witness( a, i / 2, n ); 
12 if( x == 0 ) // If n is recursively composite, stop 
13 return 0; 
14 
15 // n is not prime if we find a nontrivial square root of 1 
16 long y=(x*x) %n3 
i4 if( y == 1 &&x != 18& x ! n- 1) 
18 return 0; 
19 
20 if( 1&2 120) 
21 y=(a*y) %n; 
22 . 
23 return y; 
24 } 
25 
26 /** 
27 * The number of witnesses queried in randomized primality test. 
28 */ 
29 public static final int TRIALS = 5; 
30 
31 /** 
32 * Randomized primality test. 
33 * Adjust TRIALS to increase confidence level. 
34 * @param n the number to test. 
35 x @return if false, n is definitely not prime. 
36 * If true, n is probably prime. 








图 10-63 一 种 概率 素性 测试 算法 ( 伪 码 ) 
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37 x/ 

38 public static boolean isPrime( long n ) 

39 { 

40 Random r = new Random( ); 

41 

42 for( int counter = 0; counter < TRIALS; counter++ ) 
43 if( witness( r.randomLong( 2, n- 2), n- 1, n) !=1) 
44 return false; 

45 

46 return true; 

47 } 











图 10-63 (2%) 


我 们 知道 , 如 果 方 法 witness 返回 任何 不 是 1 的 数 , 那么 它 就 已 经 证 明了 N 不 可 能 是 素 
数 , 其 证 明 是 非 构造 性 的 , 因为 它 并 没有 具体 给 出 找到 因子 的 方法 。 业 已 证 明 , 对 于 任何 (充分 
大 的 )N, 至 多 有 4 的 (N -9)/4 个 值 会 使 该 算法 得 出 错误 的 结论 。 因 此 , 如 果 4 是 随机 选取 的 ， 
而 且 算法 的 结论 是 N( 很 可 能 ) 为 素数 , 那么 算法 至 少 有 75% 的 时 机 是 正确 的 。 设 方法 
witness 运行 50 次 , 而 算法 得 出 错误 结论 的 概率 是 1/4。 因 此 , 50 次 独立 的 随机 试验 使 算法 
出 错 的 概率 不 会 超过 1/4”=2 ”"。 实 际 上 这 是 非常 保守 的 估计 , 它 只 对 W 的 某 些 选择 成 立 。 即 
使 如 此 ， 人 们 更 可 能 看 到 的 是 硬件 的 错误 , 而 不 是 对 于 素性 的 不 正确 的 判断 。 

素性 测试 的 随机 化 算法 很 重要 , 因为 这 些 算法 一 直 比 非 随机 化 算法 要 显著 地 快 。 虽 然 随机 
化 算法 可 能 偶尔 会 产生 错误 的 结果 , 但 是 其 发 生 的 机 会 可 以 限制 到 足够 小 , 可 以 忽略 不 计 。 

多 年 以 来 , 人 们 怀疑 是 否 有 可 能 以 4 的 多 项 式 的 时 间 测 定 一 个 & 位 数字 的 数 的 素性 , 但 是 ， 
没有 人 知道 这 样 的 算法 。 可 是 最 近 , 素性 测试 的 确定 性 多 项 式 时 间 算 法 已 经 被 发 现 。 虽 然 这些 
算法 是 极其 令 人 兴奋 的 成 果 ， 但 是 它们 尚 不 能 下 j 随 机 化 算法 竞争。 参考 文献 的 末尾 提供 了 更 多 
的 信息 。 


10.5 回溯 算法 


,我 们 将 要 考查 的 最 后 一 个 算法 设计 技巧 是 回溯 ( backtracking) 算 法 。 在 许多 情况 下 , 回溯 算 
法 相当 于 穷 举 搜索 的 巧妙 实现 , 但 性 能 一 般 不 理想 。 不 过 , 情况 并 不 总 是 如 此 , 即使 是 如 此 , 在 


某 些 情形 下 它 相 对 于 亦 力 穷 举 搜索 的 工作 量 也 有 显著 的 节省 。 当 然 , 性 能 是 相对 的 : 对 于 排序 
ME, ON ) 的 算法 是 相当 差 的 , 但 对 旅行 售货员 (或 任何 NP 完全 ) 问 题 , 0(N: ) 算 法 则 是 里 程 
碑 式 的 结果 。 


回溯 算法 的 二 个 具体 例子 是 在 一 套 新 房子 内 摆 放 家 具 的 问题 。 存在 许多 尝试 的 可 能 性 , 但 
一 般 只 有 一 些 可 能 是 具体 要 考虑 的 。 开 始 什么 也 不 摆 放 , 然后 是 每 件 家 具 被 摆 放 在 室内 的 某 个 
部 位 。 如 果 所 有 的 家 具 都 已 摆好 而 且 户主 很 满意 , 那么 算法 终止 。 如 果 摆 到 某 一 步 , 该 步 之 后 
的 所 有 家 具 摆 放 方 法 都 不 理想 , 那么 我 们 必须 撤销 这 一 步 并 尝试 该 步 另 外 的 摆 放 方法 。 当 然 ， 
这 也 可 能 导致 另外 的 撤销 , 等 等 。 如 果 我 们 发 现 我 们 撤销 了 所 有 可 能 的 第 一 步 摆 放 位 置 , 那么 
就 不 存在 满意 的 家 具 摆 放 方法 。 和 否则, 我 们 最 终 将 终止 在 满意 的 位 置 上 摆 放 。 注 意 , 虽然 这 个 


算法 基本 上 是 蛮 力 的 , 但 是 它 并 不 直接 尝试 所 有 的 可 能 。 例 如 , 考虑 把 沙发 放 进 厨房 的 各 种 搜 


法 是 决 不 会 尝试 的 。 许 多 其 他 不 好 的 摆 放 方法 早 就 取消 了 , 因为 令 人 讨厌 的 摆 放 的 子 集 是 知道 
的 。 在 一 步 内 删除 一 大 组 可 能 性 的 做 法 叫 作 裁剪 ( pruning) 。 

我 们 将 看 到 回溯 算法 的 两 个 例子 。 第 一 个 是 计算 几何 中 的 问题 , 第 二 个 例子 阐述 在 诸如 国 
际 象棋 和 西洋 跳棋 的 对 穿 中 计算 机 如 何 选取 行 棋 的 步 又 。 
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10.5.1 收费 2 和 

WATE NSAP, Pros os Pus 它们 位 于 x- 轴 上 。%; E p; ABS x 坐标。 进一步 假设 % =0 
以 及 这 些 点 从 左 到 右 给 出 。 这 VN 个 点 确定 在 每 一 对 点 间 的 NCN - 1) 72 sedes 是 唯一 的 ) 形 如 
|x -x | Gi) MRR. DR, 如 果 给 定点 集 , BAAR O(N) 时间 构 造 距离 的 集合 。 
集合 将 不 是 排 好 序 的 , 但 是 , 如 果 我 们 愿意 花 0(N log IN) 时 间 界 整理 , 那么 这 些 距离 也 可 以 被 
排序 。 收 费 公 路 重建 问题 (turnpike reconstruction problem) 是 从 这 些 距离 重新 构造 出 点 集 。 它 在 
物理 学 和 分 子 生物 学 ( 参见 有 关 该 信息 更 专门 的 参考 文献 ) 中 都 有 应 用 。 这 个 名 称 来 源 于 对 美 
国 西海 岸 公路 上 那些 收费 公路 出 口 的 模拟 。 正 像 大 数 分 解 比 乘法 困难 一 样 , 重建 问题 也 比 建造 
问题 困难 。 没 有 人 能 够 给 出 一 一 个 算法 以 保证 在 多 项 式 时 间 完 成 计算 。 我 们 将 要 介绍 的 算法 一 般 
以 O(CNlog N) 运 行 , 但 在 最 坏 情形 下 可 能 要 花费 指数 时 间 , -一 一 一 

当然 , 若 给 定 该 问题 的 一 个 解 , 则 可 以 通过 对 所 有 的 点 加 上 一 个 偏 移 量 而 构建 无 穷 多 其 他 
的 解 。 这 就 是 为 什么 我 们 一 定 要 将 第 一 个 点 置 于 0 处 以 及 构建 解 的 点 集 以 非 减 顺 序 输出 的 
原因 

S D 是 距离 的 集合 , 并 设 | 有 =W=N(CN-1)X2。 作 为 例子 , it 

Dew 2 2. 2. S,. B35. 4, Ss a Ga 7T, 8, 10% 

由 于 1D| =15, AFR a N 26. ARLE x, 20 开始 。 显 然 , x, =10, 因为 10 是 D 中 最 大 
的 元 素 。 将 10 从 DD 中 删除 , 我 们 得 到 的 点 和 剩 下 的 距离 如 下 图 所 示 。 


Xi=0 Xi=10 
D={1,2,2,2,3,3,3,4,5,5,5,6,7,8} 

剩 下 的 距离 中 最 大 的 是 8, 这 就 是 说 , 或 者 x, =2, 或 者 x; =8。 由 对 称 性 , 我 们 可 以 断定 这 
种 选择 是 不 重要 的 , 因为 或 者 两 个 选择 都 引 向 解 ( 它 们 互 为 镜像 ), 或 者 都 不 会 引 问 最 终 的 解 ， 
所 以 可 置 xs =8 而 不 至 于 影响 问题 的 解 ， 然 后 从 D 中 删除 距离 xs -xs =2 和 xs 7x, 28, 得 到 

一 | 一 一 | 一 
x=0 X8 X-10 
D={1,2,2,3,3,3,4,5,5,5,6,7} 

下 一 步 是 不 明显 的 。 由 于 7 是 D 中 最 大 的 数 , 因此 或 者 % =7, REx =3。 如 果 =7, H 
么 距离 % -7=3 fix -7 = 上 也 必须 出 现在 刀 中 。 我 们 一 看 便 知 它们 确实 在 忆 中 。 另 一 方面 ， 
如 果 置 x, =3, 那么 3 =% =3 和 xs -3z5 就 必须 在 D 中 。 这 两 个 距离 也 的 确 在 D 中 。 因此 ， 我 
们 不 对 哪 种 选择 做 强求 。 这 样 , 我 们 尝试 其 中 的 一 种 看 是 否 它 导致 问题 的 解 。 如 果 它 不 行 , 那 
么 我 们 退回 来 再 尝试 另外 的 选择 。 尝 试 第 一 个 选择 置 x%, =7, 得 到 

一 一 一 一 | 一 
xj70 x77 x98 x10 
D={2,2,3,3,4,5,5,5,6} 

此 时 ， 我 们 得 到 Xi =0, X, =7, Xs -8 和 Xo — 10, 现在 最 大 的 距离 是 6, 因此 或 者 X3 =6 或 
fx, =4。 (UE, WR x, =6, 那么 x x =1, 这 是 不 可 能 的 , 因为 1 不 再 属于 D。 另 一 方面 ,如 
He x, =4, 那么 X, — X, =4 和 x, -X, =4。 这 也 是 不 可 能 的 ， 因为 4 只 在 D 中 出 现 一 次 。 因此 ， 这 
个 推理 思路 得 不 到 解 , 我 们 需要 回溯 

由 于 x, =7 不 能 产生 解 , 因此 我 们 尝试 x, =3。 如 果 这 也 不 行 , 那么 我 们 停止 计算 并 报告 无 
解 。 现 在 , 我 们 有 


0 Y =8 x=10 
D=11,2,2,3,3,4,5,5,6} 


我 们 必须 再 一 次 在 =6 RE x, =4 之 间 选 择 。x; =4 是 不 可 能 的 , 因为 D 只 出 现 一 个 4, 而 


488 
i 
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该 选择 意味 着 要 有 两 个 。z =6 是 可 能 的 , 于 是 我 们 得 到 
SS ee ELA 
x,=0 x23 6 X=8 X410 


m 
D -711,2,3,5,5] 


唯一 剩 下 的 选择 是 x, =5; 这 是 可 以 的 , 因为 它 使 得 D 成 为 空 集 , 因此 我 们 得 到 问题 的 一 个 解 。 
一 一 


x,=0 


X73 x-5x-26 x-8 
D- 


xg 710 


图 10-64 是 一 棵 决策 树 , 代表 为 得 到 解 而 采取 的 行动 。 这 里 , 我 们 没有 对 分 支 作 标记 , 而 是 
把 标记 放 在 了 分 支 的 目的 节点 上 。 带 有 一 个 星 号 的 节点 表示 这 些 所 选 的 点 与 给 定 的 距离 不 一 
致 ; 带 有 两 个 星 号 的 节点 只 有 不 可 能 的 节点 作为 儿子 , 因此 表示 一 条 不 正确 的 路 径 。 


图 10-64 ”收费 公路 重建 问题 的 决策 树 


实现 这 个 算法 的 伪 代 码 大 部 分 都 很 简单 。 驱 动 例 程 turnpike 如 图 10-65 所 示 。 它 接收 点 
的 数组 x( 不 需要 初始 化 ) , 距离 的 集合 忆 和 N >。 如 果 找 到 一 个 解 , 则 返回 true, 答案 将 被 放 
到 x 中 , 而 也 将 是 空 集 。 和 否则 , 返回 false, x 将 是 不 确定 的 , 距离 集合 忆 将 保持 不 变 。 该 例 程 
如 上 所 述 设置 了 x ey Alay, 修改 了 D, 并 且 调 用 了 回溯 算法 place 以 放置 其 余 的 点 。 我 们 
假设 为 保证 | D| =N(N-1)/2 已 经 进行 了 检验 。 


“更 困难 的 部 分 是 回溯 算法 ,如 图 10-66 
所 示 。 与 大 多 数 回溯 算法 一 样 , 最 方便 的 实 
现 方法 是 递归 。 我 们 传递 同样 的 参数 以 及 
界 Left 和 Right ; Kaps 79 xn 是 我 们 试图 放 
置 的 点 的 x 坐标。 如果 D 是 空 集 (或 Left > 
Right) , 那么 解 已 经 找到 , 我 们 可 以 返回 。 
否则 , 首先 尝试 使 saw = Dox WRIA IE 
当 的 距离 都 (以 正确 的 值 ) 出现 , 那么 尝 
性 地 放 上 这 一 点 , 删除 相应 的 距离 ， 并 尝试 
从 Left 到 Right -1 填 和 人 。 如 果 这 些 距 离 不 出 
Bh, 或 者 从 Left 到 Right -1 填 入 尝试 失败 ， 
那么 尝试 置 Xpg = Xy 7 Duas 使 用 类 似 的 做 





boolean turnpike( int [ ] x, DistSet d, int n ) 


{ 


x[ 1] = 0; 

x[ n ] = d.deleteMax( ); 

x[ n - 1] = d.deleteMax( ); 
if( xIn] - x[n-1]ed) 
{ 


d.remove( x[n]- x[n-1] ); 
return place( x, d, n, 2, n- 2); 


else 
return false; 





图 10-65 ”收费 公路 重建 算法 : 驱动 例 程 ( 伪 代 码 ) 


日 ”为 使 所 举 的 例子 方便 起 见 ， 我 们 使 用 了 单字 母 变量 名 ， 一 般 说 来 这 不 是 好 习惯 。 为 了 简单 ， 我 们 也 不 给 出 
变量 的 类 型 。 最 后 ， 我 们 让 数组 下 标 从 1 开始 ， 而 不 是 从 0。 
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法 。 如 果 这 样 不 行 , 则 问题 无 解 ; 否则 , 一 个 解 已 经 找到 , 而 这 个 信息 最 终 通过 return 语句 和 
x 数组 传递 回 turnpike, 


/x* 
* Backtracking algorithm to place the points x[left] ... x[right]. 
* x[1]...x[left-1] and x[right*1]...x[n] already tentatively placed. 
* If place returns true, then x[left]...x[right] will have values. 
*/ 
boolean place( int [ ] x, DistSet d, int n, int left, int right ) 
{ 

int dmax; 

boolean found = false; 


1 if( d.isEmpty( ) ) 
2 return true; 
3 dmax = d.findMax( ); 
// Check if setting x[right] = dmax is feasible. 
4 if( | x[j] - dmax | e d for all 1<j<left and right<j<n ) 
{ 
5 x[right] = dmax; // Try x[right]=dmax 
6 for( 1<j<left, right<j<n ) 
7 d.remove( | x[j] - dmax | ); 
8 found = place( x, d, n, left, right-1 ); 
9 if( !found ) // Backtrack 
10 for( 1<j<left, right<j<n ) // Undo the deletion 
ll d.insert( | x[j] - dmax | ); 
} 


// If first attempt failed, try to see if setting 
// x[left]-x[n]-dmax is feasible. 


12 if( !found && ( | x[n] - dmax - x[j] | e d 
13 for all 1<j<left and right<j<n ) ) 
{ 
14 x[left] = x[n] - dmax; // Same logic as before 
15 for( 1<j<left, right<j<n ) 
16 d.remove( | x[n] - dmax - x[j] | ); 
17 found = place( x, d, n, left*1, right ); 
18 if( !found ) // Backtrack 
19 for( 1<j<left, right<j<n ) // Undo the deletion 
20 d.insert( | x[n] - dmax - x[j] | ); 
) 
21 return found; 








图 10-66 ”收费 公路 重建 算法 : 回溯 的 步 又 ( 伪 代 码 ) 


算法 的 分 析 涉 及 两 个 因素 。 设 第 9 行 到 第 11 行 以 及 第 18 行 到 第 20 行 从 未 执行 。 我 们 可 以 
JE D 作为 平衡 二 叉 查 找 (或 伸展 ) 树 保存 (当然 , 这 需要 对 代码 做 些 修改 )。 如 果 我 们 从 未 回溯 ， 
那么 最 多 有 ON ) 次 操作 涉及 D, 如 在 第 4 行 、 第 12 到 13 行 中 蕴涵 的 删除 和 一 些 contains, 
显然 这 是 对 删除 提出 的 , 因为 D 有 0(N ) 个 元 素 而 没有 元 素 被 重新 插入 。 每 次 对 place 的 调 
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用 最 多 用 到 2N 次 contains, 而 由 于 place 在 该 分 析 中 从 未 回溯 , 因此 最 多 可 以 有 2N 次 
contains 操作 。 于 是 ,如 果 没 有 回溯 , 那么 运行 时 间 为 这 O(N log N) 。 

当然 , 回溯 是 要 发 生 的 。 如 果 回 溯 反 复发 生 , 那么 算法 的 性 能 就 要 受到 影响 。 我 们 可 以 通 
过 构建 病态 的 情形 迫使 它 发 生 。 经 验证 明 , 如 果 点 的 整数 坐标 在 [0，D,..] 均 匀 地 和 随机 地 分 
di, 其 中 D, =B@(N ) ,那么 在 整个 算法 期 间 几 乎 肯定 最 多 执行 一 次 回溯 。 
10.5.2 W 

作为 最 后 一 个 应 用 , 我 们 将 考虑 计算 机 可 能 用 来 进行 战略 游戏 的 策略 ,如 西洋 跳棋 或 国际 象 
棋 。 作 为 一 个 例子 , 我 们 将 使 用 较 简 单 的 三 连 游戏 棋 (tic-tac-toe) ,因为 它 使 得 想法 更 容易 表述 。 

如 果 双 方 均 弈 至 最 优 , 那么 三 连 游戏 棋 就 是 平局 。 通 过 对 逐个 情况 的 仔细 分 析 , 构造 一 个 
从 不 输 棋 而 且 当 机 会 出 现时 总 能 赢 棋 的 算法 并 不 是 困难 的 事 。 之 所 以 能 够 做 到 是 因为 一 些 位 置 
是 已 知 的 陷阱 ,可 以 通过 查 表 来 处 理 。 另 外 一 些 方法 , 如 当中 央 的 方 格 可 用 时 占据 该 方 格 ,可 
以 使 得 分 析 更 简单 。 如 果 完 成 了 分 析 , 那么 通过 一 个 表 我 们 总 可 以 只 根据 当前 位 置 选择 一 步 
Bt, KIR, 这 种 方法 需要 程序 员 而 不 是 计算 机 来 进行 大 部 分 的 思考 。 

极 小 极 大 策略 

较 一 般 的 策略 是 使 用 一 个 赋值 函数 来 给 一 个 位 置 的 “好 坏 ” 定 值 。 能 使 计算 机 获胜 的 位 
置 可 以 得 到 值 +1; 平局 可 得 到 0; 使 计算 机 输 棋 的 位 置 得 到 值 -1。 通 过 考察 盘面 就 能 够 确定 
输赢 的 位 置 叫 作 终端 位 置 (terminal position ) 。 

如 果 一 个 位 置 不 是 终端 位 置 , 那么 该 位 置 的 值 通过 递归 地 假设 双方 最 优 棋 步 而 确定 。 这 叫 
作 极 小 极 大 ( minimax ) 策略 ,因为 下 棋 的 一 方 ( 人 ) 试 图 使 这 个 位 置 的 值 极 小 ,而 另 一 方 (计算 
机 ) 却 要 使 它 的 值 极 大 。 

位 置 P 的 后 继 位 置 (successor position) 是 通过 从 己 走 一 步 横 可 以 达到 的 任何 位 置 已 。 如 果 
当 在 某 个 位 置 已 计算 机 要 走 棋 , 那么 它 递 归 地 求 出 所 有 的 后 继 位 置 的 值 。 计 算 机 选择 具有 最 大 
值 的 一 步行 棋 ; 这 就 是 P 的 值 。 为 了 得 到 任意 后 继 位 置 P, 的 值 , 要 递归 地 算出 P, 的 所 有 后 继 
位 置 的 值 , 然后 选取 其 中 最 小 的 值 。 这 个 最 小 值 代表 行 棋 的 人 的 一 方 最 赞成 的 应 着 。 

图 10-67 中 的 程序 使 得 计算 机 的 策略 更 清晰 。 第 22 行 到 第 25 行 直 接 给 赢 棋 或 平局 赋值 。 
如 果 这 两 个 情况 都 不 适用 , 那么 这 个 位 置 就 是 非 终 端 位 置 。 注 意 到 value 应 该 包括 所 有 可 能 
后 继 位 置 的 最 大 值 , 第 28 行 把 它 初始 化 为 最 小 可 能 的 值 , 第 29 行 到 第 42 行 的 循环 则 为 了 改进 
而 进行 搜索 。 每 一 个 后 继 位 置 递 归 地 依次 由 第 32 行 到 第 34 行 算出 值 来。 因为 我 们 将 看 到 过 程 
findHumanMove 调用 findCompMove, 所 以 这 是 递归 的 。 如 果 人 对 一 步 棋 的 应 着 给 计算 机 留 
下 比 计算 机 在 前 面 最 佳 棋 步 所 得 到 的 位 置 更 好 的 位 置 , 那么 value 和 bestMove 将 被 更 新 。 
图 10-68 显示 的 是 下 棋 人 棋 步 选择 的 方法 。 除 了 行 横 人 选择 的 棋 步 导 臻 最低 值 的 位 置 外 , 所 有 
的 逻辑 实际 上 都 是 相同 的 。 事 实 上 , 通过 传递 一 个 附加 的 变量 不 难 把 这 两 个 过 程 合并 成 一 个 ， 
这 个 附加 变量 指出 棋 该 轮 到 谁 走 。 这 样 一 来 确实 使 得 程序 多 少 有 些 难于 读 懂 了 ,因此 我 们 就 停 
留 在 两 个 分 开 的 例 程 的 阶段 。 ; 


public class MoveInfo 


public int move; 
public int value; 


public MoveInfo( int m, int v ) 
{ move = m; value = v; 


/xx 


* Recursive method to find best move for computer. 





图 10-67 极 小 极 大 三 连 游戏 棋 算法 : 计算 机 的 选择 
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* MoveInfo.move returns a number from 1-9 indicating square. 
* Possible evaluations satisfy COMP LOSS « DRAW « COMP WIN. 
* Complementary method findHumanMove is Figure 10.68. 
*/ 
public MoveInfo findCompMove( ) 
{ 
int i, responseValue; 
int value, bestMove = 1; 
MoveInfo quickWinInfo; 


if( fullBoard( ) ) 
value = DRAW; - 

else if( ( quickWinInfo = immediateCompWin( ) ) != null ) 
return quickWinInfo; 

else 


{ 


value = COMP_LOSS; 
for( i = 1; i <= 9; i++ ) // Try each square 


if( isEmpty( i ) ) 

{ 
place( i，COMP ); 
responseValue = findHumanMove( ).value; 
unplace( i ); // Restore board 


if( responseValue » value ) 


{ 
// Update best move 
value = responseValue; 
bestMove = i; 


} 


return new MoveInfo( bestMove, value ); 





图 10-67 (4) 


public MoveInfo findHumanMove( ) 
{ 
int i, responseValue; 
int value, bestMove = 1; 
MoveInfo quickWinInfo; 


if( fullBoard( ) ) 
value = DRAW; 

else 

if( ( quickWinInfo = immediateHumanWin( ) ) != null ) 
return quickWinInfo; 

else 


{ 


value = COMP WIN; 





图 10-68 极 小 极 大 三 连 游戏 模 算法 : 人 的 选择 
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for( i = 1; i <= 9; i++ ) // Try each square 
{ 

if( isEmpty( i ) ) 

{ 


place( i, HUMAN ); 
responseValue = findCompMove( ).value; 
unplace( i ); // Restore board 


if( responseValue < value ) 
{ 
// Update best move 
value = responseValue; 
bestMove = i; 


return new MoveInfo( bestMove, value ); 





图 10-68 (2) 


由 于 这 两 个 例 程 必须 要 传 回 位 置 的 值 和 最 佳 的 棋 步 , 因此 在 MoveInfo 对 象 中 传递 这 两 个 
变量 。 

我 们 把 一 些 支撑 例 程 留 作 一 道 练习 题 。 代 价 最 高 的 计算 是 需要 计算 机 开局 的 情形 。 由 于 在 
这 个 阶段 棋局 处 于 平局 的 形势 , 因此 计算 机 选择 方 格 1 “。 需 要 考查 的 位 置 总 共有 97 162 个 ， 
计算 要 花费 几 秒 。 没 有 优化 程序 的 打算 。 如 果 下 棋 人 选择 中 央 方 格 , 那么 当 计算 机 走 第 二 步 棋 
的 时 候 , 所 要 考查 的 位 置 的 个 数 是 5 185 个 ; 当下 棋 人 选择 一 个 角 上 的 方 格 时 计算 机 所 要 考查 
的 位 置 的 个 数 是 9 761 个 ,而 当下 棋 人 选择 非 角 的 边 上 的 方 格 时 计算 机 要 考查 13 233 个 位 置 。 

对 于 更 复杂 的 游戏 (如 西洋 跳棋 和 国际 象棋 ), 搜索 到 终端 节点 的 全 部 棋 步 显 然 是 不 可 行 的 = 。 
在 这 种 情况 下 , 我 们 在 达到 递归 的 某 个 深度 之 后 只 能 停止 搜索 。 递 归 停止 处 的 节点 则 成 为 终端 节 
点 。 这 些 终端 节点 的 值 由 一 个 估计 位 置 的 值 的 函数 计算 得 出 。 例 如 , 在 一 个 国际 象棋 程序 中 , R 
值 函数 计量 诸如 棋子 和 位 置 因素 的 相对 量 和 强度 这 样 一 些 变量 。 求 值 函数 对 于 成 功 是 至 关 重 要 
的 , 因为 计算 机 的 行 棋 选 步 是 基于 将 这 个 函数 极 大 化 。 最 好 的 计算 机 下 棋 程 序 具 有 惊人 复杂 的 求 
值 函数 。 

然而 , 对 于 计算 机 下 棋 , 一 个 最 重要 的 因素 看 来 是 程序 能 够 向 前 看 出 的 棋 步 的 数目 。 有 时 
我 们 称 之 为 层 (ply) ; 它 等 于 递归 的 深度 。 要 实现 这 个 功能 , 需要 给 予 搜索 例 程 一 个 附加 的 


参数 。 X olx Xlolx 
在 对 弈 程序 中 增加 向 前 看 步 因 素 的 基本 方法 是 提出 一 I^ em E = TE — 


Hr, 这些 广 法 对 更 少 的 节点 求 信 却 不 丢失 任何 信息 。 | xlol xjok 
我 们 已 经 看 到 的 一 种 方法 是 使 用 一 个 表 来 记录 所 有 已 经 “tr - ae TE 
计算 过 的 值 的 位 置 。 例 如 , 在 搜索 第 一 步 模 的 过 程 中 , 各 M 

序 将 考查 图 10-69 中 的 一 些 位 置 。 如 果 这 些 位 置 的 值 被 存 图 10-69 到达 同 一 位 置 的 两 种 搜索 











O 我 们 将 方 格 从 棋盘 左上 角 开 始 向 右 编号 。 不 过 ， 这 只 对 支撑 例 程 是 重要 的 。 
© 据 估 计 ， 即 使 是 本 节 稍 后 描述 的 改进 方法 结合 使 用 ， 这 个 数字 也 不 能 降低 到 实用 的 水 平 。 
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ET, 那么 一 个 位 置 在 第 二 次 出 现时 就 不 必 再 重新 计算 ; 它 基本 上 变 成 了 一 个 终端 位 置 。 记 录 
这 些 信息 的 数据 结构 叫 作 置换 表 ( transposition table) ; 它 几乎 总 可 通过 散 列 来 实现 。 在 许多 情况 
F, 这 可 以 节省 大 量 的 计算 。 例 如 , 在 一 盘 棋 的 残局 阶段 , 此 时 相对 来 说 只 有 很 少 的 棋子 , 时 间 
的 节省 使 得 一 步 搜索 可 以 进行 到 更 深 的 若干 层 。 

a-B 裁剪 

人 们 一 般 能 够 取得 的 最 重要 的 改进 称 为 a-B 裁 前 (a-B pruning) 。 图 10-70 显示 在 一 盘 假想 
的 棋局 中 用 来 给 某 个 假设 的 位 置 求 值 的 一 些 递归 调用 的 迹 。 通 常 这 叫 作 一 棵 博弈 树 ( game 
tree) 。( 到 现在 为 止 我 们 一 直 回 避 使 用 这 个 术语 , 因为 它 多 少 有 些 误导 : 没有 树 是 由 该 算法 具 
体 构造 的 。 博 弈 树 只 是 一 个 抽象 的 概念 。) 这 棵 博弈 树 的 值 为 44。 





条 Max 
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ay A) 68) Max 

e 44) Q0 2) 69 69 Min 
4205 650) (269 (9) 6 60 69 03 6203 636049 (90) 6562 6269 6969 OES (260 


图 10-70 一 棵 假想 的 博弈 树 


图 10-71 显示 同一 棵 博弈 树 的 求 值 , 它 有 一 些 ( 但 不 是 所 有 可 能 的 ) 尚 未 求 值 的 节点 。 几 乎 
有 一 半 的 终端 节点 没有 被 检验 = 我们 证 明 计 算 它 们 的 值 将 不 改变 树 根 的 值 。 
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图 10-71 一 棵 被 裁减 的 博弈 树 


首先 , 考虑 节点 D。 图 10-72 显示 在 给 D 求 值 时 已 经 搜集 到 的 信息 。 此 时 , 我 们 仍然 处 在 
findHumanMove 中 并 正在 打算 对 D 调用 findCcompMove。 然 而 ,我们 已 经 知道 
findHumanMove 最 多 将 返回 40, 因为 它 是 一 个 min 节点。 男 一 方面 , ECM max 父 节点 已 经 找 
到 一 个 保证 44 的 序列 。 注 意 , D 无 论 如 何 也 不 可 能 增加 这 个 值 。 因 此 , D 不 需要 求 值 。 该 树 的 
这 个 裁减 叫 作 a 裁减。 同样 的 情况 也 出 现在 节点 8B。 为 了 实现 a XX, finacompMove FEM 
尝试 性 的 极 大 值 (a) 传 递 给 findHumanMove。 如 果 findHumanMove 的 尝试 性 的 极 小 值 低 于 
这 个 值 , 那么 £indHumanMove 立即 返回 。 

类 似 的 情况 也 发 生 在 节点 4 和 C bu 这 一 次 , RIE £indcompMove 的 中 间 , 并 且 正 要 调 
用 £indHumanMove 以 计算 C 的 值 。 图 10-73 显示 在 节点 C 遇 到 的 情况 。 不 过 在 minJz E, W 
用 了 £indCompMove 的 findHumanMove, 已 经 确定 它 能 够 迫使 值 最 高 到 44( 注 意 , 对 于 下 棋 
人 这 一 方 低 值 是 好 的 )。 由 于 findCompMove 有 一 个 尝试 性 的 最 大 值 68, 因此 C. 上 无 论 如 何 也 
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不 会 影响 到 min 层 这 个 结果 。 因 此 ,C 不 应 该 求 值 。 这 种 类 型 的 裁减 叫 作 B 裁减 , 它 是 a 裁减 
的 对 称 形 式 。 当 两 种 方法 结合 起 来 时 就 得 到 a-B 裁减 。 


Ea) Max 





图 10-72 标记 ? 的 节点 是 不 重要 的 图 10-73 标记 ?的 节点 是 不 重要 的 
实现 a- B 裁减 所 需 代 码 少 得 惊人 。 图 10-74 显示 的 是 a- 裁减 方案 的 一 半 ( 减 去 类 型 说 明 ) 
内 容 ; 男 一 半 代 码 的 编写 应 该 不 会 遇 到 任何 麻烦 。 


O0 NAUA ~ 








** 
j Same as before, but perform alpha-beta pruning. 
* The main routine should make the call with 
* alpha = COMP_LOSS and beta = COMP_WIN. 
*/ 
public MoveInfo findCompMove( int alpha, int beta ) 
{ 
int i, responseValue; 
int value, bestMove = 1; 
MoveInfo quickWinInfo; 


if( fullBoard( ) ) 
value = DRAW; 

else 

if( ( quickWinInfo = immediateCompWin( ) ) != null ) 
return quickWinInfo; 

else 


{ 


value = alpha; 


for( i = 1; i <= 9 && value < beta; i++ ) // Try each square 


{ 


if( isEmpty( i ) ) 

( 
place( i, COMP ); 
responseValue = findHumanMove( value, beta ).value; 
unplace( i ); // Restore board 


if( responseValue » value ) 


( 
// Update best move 
value = responseValue; 
bestMove = i; 


} 


return new MoveInfo( bestMove, value ); 


图 10-74 带 有 a-B 裁减 的 极 小 极 大 三 连 游戏 棋 算法 : 计算 机 棋 步 的 选择 
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为 了 充分 利用 a-p 裁减 , 对 弈 程序 通常 尽量 对 非 终 端 节点 应 用 求 值 函 数 , 力图 把 最 好 的 棋 
步 早 一 些 放 到 搜索 范围 内 。 这 样 的 结果 甚至 比 人 们 从 随机 顺序 的 节点 所 期 望 的 结果 还 要 裁减 得 
多 。 其 他 一 些 方法 , 像 在 一 些 更 活跃 的 行 棋 沿 线 进行 更 深入 的 搜索 也 在 使 用 。 


在 实践 中 , a-p 裁减 把 搜索 限制 在 只 有 0(VN) 个 节点 上 , 这 里 N 是 整个 博弈 树 的 大 小 。 这 
是 巨大 的 节约 , 它 意味 着 使 用 a-p 裁减 的 搜索 与 非 裁减 树 相 比 能 够 进行 到 两 倍 的 深度 。 我 们 的 
三 连 游戏 棋 例 子 是 不 理想 的 , 因为 存在 太 多 相同 的 值 , 但 即使 是 这 样 , 最 初 对 97 162 个 节点 的 
搜索 还 是 被 减 到 了 4 493 个 节点 (这 些 计数 包括 非 终端 节点 )。 

在 许多 对 弈 领域 ,计算 机 跻身 于 世界 最 优秀 棋 手 之 列 。 所 使 用 的 方法 是 非常 有 趣 的 ,而 且 
可 以 应 用 到 一 些 更 严肃 的 问题 上 。 更 多 的 细节 可 见 参考 文献 。 


小 结 


这 一 章 曾 述 了 在 算法 设计 中 发 现 的 五 个 最 普通 的 方法 。 当 面临 一 个 问题 的 时 候 , 花 些 时 间 
考察 一 下 这 些 方法 能 否 适用 是 值得 的 。 算 法 的 适当 选择 , 结合 数据 结构 的 审慎 使 用 , 常常 能 够 
迅速 导致 问题 的 高 效 解决 。 


练习 


10.1 ”证明 将 多 处 理 器 作业 调度 工作 的 平均 完成 时 间 最 小 化 的 贪 禁 算 法 是 正确 的 。 

10.2 BAHEA, 有 ，…, jn， 其 中 的 每 一 个 作业 都 要 花 一 个 时 间 单 位 来 完成 。 如 果 每 个 作业 ji 
在 时 间 限 度 t, 内 完成 , 那么 将 挣 得 di 美元 , 但 若 在 时 间 限 度 以 后 完成 则 挣 不 到 钱 。 
a. 给 出 一 个 0(N” ) 贪 禁 算 法 求解 该 问题 。 

"b. 修改 你 的 算法 以 得 到 0( Mog N) 的 时 间 界 。 提 示 : 时 间 界 完全 归 因 于 将 作业 按照 金额 排序 。 
算法 的 其 余部 分 可 以 使 用 不 相交 集 数据 结构 以 0( Mog N) KA 

10.3 ”一 个 文件 以 下 列 频率 包含 冒号 、 空 格 、 换 行 (newline) 、 逗 号 和 数字 : 冒号 (100), 空格 (605 ), 换 
行 (100) , 逗号 (705), 0(431) , 1(242) , 2(176) , 3(59), 4(185), 5(250), 6(174), 7(199), 8 
(205), 9(217) 。 构 造 其 哈 夫 曼 编码 。 

10.4 ”编码 文件 有 一 部 分 必须 是 指示 哈 夫 曼 编码 的 文件 头 。 给 出 一 种 方法 构建 大 小 最 多 为 0(N) 的 文 
件 头 ( 除 符号 外 ), 其 中 N 是 符号 的 个 数 。 

10.5 ”完成 哈 夫 曼 算法 生成 最 优 前 绷 码 的 证 明 。 

10.6 证明, 如 果 符 号 是 按照 频率 排序 的 , 那么 哈 夫 曼 算 法 可 以 以 线性 时 间 实 现 。 

10.7 “用 哈 夫 曼 算法 写 出 一 个 程序 实现 文件 压缩 (和 解压 缩 ) 。 


“10.8 WEB, 通过 考虑 下 述 项 的 序列 可 以 迫使 任意 联机 装 箱 算法 至 少 使 用 最 优 箱子 数 : N 项 大 小 为 


t -2e, NS +e, NSIS E 


10.9 给 出 一 个 简单 的 分 析 ， 证明 首 次 适合 递减 装 箱 算法 在 下 列 情况 下 性 能 的 上 界 : 
a 最 小 物品 的 规模 大 于 1/3。 
“b. 最 小 物品 的 规模 大 于 1/4. 
"c. 最 小 物品 的 规模 小 于 2/11, 
10.10 解释 如 何以 时 间 OCN log N) 实 现 首次 适合 算法 和 最 佳 适 合算 法 。 
10.11 指出 在 10.1.3 节 讨 论 的 所 有 装 箱 方法 对 输入 0.42, 0.25, 0.27, 0.07, 0.72, 0.86, 0.09, 
0.44, 0.50, 0.68, 0.73, 0.31, 0.78, 0.17, 0.79, 0.37, 0.73, 0.23, 0.30 的 操作 。 
10.12 ”编写 一 个 程序 比较 各 种 装 箱 试探 方法 (在 时 间 上 和 所 用 箱子 的 数量 上 ) 的 性 能 。 
10. 13 证 明定 理 10.7。 
10.14 证 明定 理 10.8. 
“10.15 将 w 个 点 放 人 一 个 单位 方 格 中 。 证 明 最 近 一 对 点 之 间 的 距离 为 ON ”) 。 
“10. 16 “论证 对 于 最 近 点 算法 , 在 带 内 的 平均 点 数 是 0(VN) 。 提 示 : 利用 前 一 道 练习 的 结果 。 
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10.26 * 


10. 27 
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10. 30 


10. 31 
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编写 一 个 程序 实现 最 近 点 对 算法 。 
使 用 三 数 中 值 取 中 分 割 方法 , 快速 选择 算法 的 渐 近 运行 时 间 是 多 少 ? 
证 明 七 数 中 值 取 中 分 割 法 的 快速 选择 算法 是 线性 的 。 为 什么 七 数 中 值 取 中 分 割 法 不 用 在 证 明 中 ? 
实现 第 7 章 中 的 快速 选择 算法 , 快速 选择 使 用 五 数 中 值 取 中 分 割 法 , 并 实现 10.2.3 节 末尾 的 抽 
样 算法 。 比 较 它们 的 运行 时 间 。 
许多 用 于 计算 五 数 中 值 取 中 分 割 法 的 信息 都 被 扔 掉 了 。 指 出 通过 更 仔细 地 使 用 这 些 信 息 怎 样 能 
够 减少 比较 的 次 数 。 
完成 在 10. 2. 3 节 末 尾 描述 的 抽样 算法 的 分 析 , 并 解释 8 和 的 值 如 何 选择 。 
指出 如 何 用 递归 乘 算法 计算 XY, Hop x 21234, 了 =4321。 要 包括 所 有 的 递归 计算 。 
指出 如 何 只 使 用 三 次 乘法 将 两 个 复数 =a + bi A Y =e +di HR, 
a 证 明 
Ed. FXQ,cU +E IY, tl 3 ME 

它 给 出 进行 N 比特 数 的 乘法 的 0(N"”) 算 法 。 将 该 方法 与 课文 中 的 解法 进行 比较 ， 
a. nt 一 大 小 的 五 个 问题 来 完成 两 个 数 的 乘法 。 
b. 将 该 问题 推广 得 出 一 个 O(N 1) 的 算法 , 其 中 e >0 为 任意 常数 。 
c. 在 b 问题 中 的 算法 比 O( Nlog NW) 好 吗 ? 
为 什么 Strassen 算法 在 2 x2 矩阵 的 乘法 中 不 使 用 可 交换 性 是 重要 的 ? 
两 个 70 x 70 矩阵 可 以 使 用 143 640 次 乘法 相 乘 。 指 出 这 如 何 能 够 用 于 改进 由 Strassen 算法 给 出 
的 界 。 
WH A,A,A,A ASA, 的 最 优 方 法 是 什么 ? 其中, 这 些 矩 阵 的 阶 数 为 4,: 10x20, A: 20 x1, A: 
1 x40, A,:40 x5, A,: 5x30, A,: 30 x15, 
证 明 下 列 贪 焚 算 法 均 不 能 进行 链 式 矩阵 乘法 。 在 每 一 步 . 
a 计算 最 划算 的 乘法 。 
b. 计算 最 昂贵 的 乘法 。 
c. 计算 两 个 矩阵 M, 和 MM, 之 间 的 乘法 使 得 在 M, 中 的 列 数 最 小 (使 用 上 面 法 则 之 一 )。 
编写 一 个 程序 计算 矩阵 乘法 的 最 佳 顺序 。 注 意 , 要 包括 显示 具体 顺序 的 例 程 。 
指出 下 列 单词 的 最 优 二 又 查找 树 ， 其 中 括号 内 是 单词 出 现 的 频率 ; a(0.18)，and(0.19)，! 
(0.23), it(0.21), or(0. 19) 。 
将 最 优 二 叉 查 找 树 算法 扩展 到 可 以 对 不 成 功 的 搜索 进行 。 在 这 种 情况 下 , 9 是 对 任意 满足 w < 
W<w,,, ial WW 执行 一 次 查找 的 概率 , 其 中 1<j<N。 s 是 对 的 单词 W 执行 = -次 查找 


的 概率 , 而 gx XIW > wy 执行 一 次 查找 的 概率 。 注 意 ， > E s zi, 


Ww C, 20, 此 外 

Cj =W, j + min (C; ner + C) 
p WM eee inequality ) , 即 对 所 有 的 i <i'<j<j’, 

Wj + Wp SW, + Wiy 
进一步 假设 W 是 单调 的 : 如 果 isi isi. WAW wus Wy 
a. 证 明 C 满足 四 边 形 不 等 式 。 
b. 令 Ri 是 使 达到 最 小 值 Cii + Ci 的 最 大 的 有 即 在 相同 的 情形 下 选择 最 大 的 有 ) 。 证 明 
R,, €R,,,, SR; 

c. 证 明 R 沿 着 每 一 行 和 列 是 非 减 的 。 
d. 用 它 证 明 C 中 所 有 的 项 可 以 以 OCN ) 时 间 计 算 。 
e. 使 用 这 些 技巧 以 O (N^ ) 时 间 可 以 解决 哪个 动态 规划 算法 ? 
编写 一 个 例 程 从 10. 3. 4 节 中 的 算法 重新 构造 那些 最 短路 径 。 
二 项 式 系数 CON, 上 ) 可 以 递归 定义 如 下 : CCN, 0) =1, CCN, N) =1, 且 对 于 0 <k<N, C(N, 
k) =C(N-1, EF) +C(N-1, 上 -1)。 编写 一 种 方法 并 给 出 如 下 计算 二 项 式 系 数 的 运行 时 间 的 
分 析 : 


*1j*l 
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10. 41 
10. 42 


10. 43 
10. 44 


10. 45 


10. 46 
10. 47 


* 10. 48 


* 10. 49 


a. 递归 计算 。 

b. 使 用 动态 规划 算法 。 

编写 在 跳跃 表 中 分 别 执 行 插入 、 删 除 以 及 查找 的 例 程 。 

给 出 跳跃 表 操作 的 期 望 时 间 为 OC log N) 的 正式 证 明 。 

10-75 显示 抛 一 枚 硬币 的 例 程 , 假设 random 返回 一 个 整数 (这 在 许多 系统 中 常见 ) 。 如 果 随 
机 数 发 生 器 使 用 形 如 M = 2° 的 模 ( 遗憾 的 是 这 在 许多 系统 上 流行 ), 那么 那些 跳跃 表 算法 的 期 望 
性 能 如 何 ? 

a. 用 取 客 算法 证 明 2” =1 ( mod 341), 

b. 指出 随机 化 素性 测试 当 N=561 时 对 于 A 的 多 种 选择 是 如 何 工作 的 。 


CoinSide flip( ) - —— TM 
i 


if( ( random( ) 2) == 0) 


return HEADS; 
else 
return TAILS; 





图 10-75 有 问题 的 抛 币 器 (程序 ) 


实现 收费 公路 重建 算法 。 

如 果 两 个 点 集 产生 相同 的 距离 集合 而 不 彼此 转换 , 那么 这 两 个 点 集 称 为 是 同 度 的 ( homometric ) 。 
下 列 距离 集合 给 出 两 个 不 同 的 点 集 : 11, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 16, 
17| 。 求 出 这 两 个 点 集 。 

扩展 重建 算法 使 给 定 一 个 距离 集合 找 出 所 有 的 同 度 点 集 。 


指出 图 10-76 中 树 的 a-B 裁减 的 结果 。 
68) Max 
(68 63) Min 
68 6 63 7 Max 
E @) © 四 63 D 7 3 Min 


d & & $ & $ d d & D G à m & dq GMa 
633 6369 G9 69 69 69 65 6962.6) 66 68 65 49 4) 63.69 09 6009 49 (9 630) 6065 OBOE 
图 10-76 博弈 树 , 该 树 可 以 裁减 


a. 图 10-74 中 的 程序 实现 a 裁减 还 是 B 裁减 ? 

b. 实现 与 其 互补 的 例 程 。 

写 出 三 连 游戏 棋 其 余 的 过 程 。 

一 维 装 圆 问题 (one- dimensional circle packing problem) 如 下 : Æ N PERDIE r, a, s ry 的 
圆 。 将 这 些 圆 装 到 一 个 盒子 中 使 得 每 个 圆 都 与 盒子 的 底 边 相 切 , 圆 的 排列 按 原 来 的 顺序 。 该 问 
题 是 找 出 最 小 尺寸 的 盒子 的 宽度 。 图 10-77 显示 一 个 例子 , 圆 的 半径 分 别 为 2、1、2。 最 小 尺寸 
盒子 的 宽度 为 4+4V2。 ik 9:656 

设 无 向 图 C 的 边 满足 三 角形 不 等 式 : c. ce mous 指出 如 
何 计算 值 最 多 为 最 优 路 径 两 倍 的 旅行 售货员 环 游 。 提 示 : 构造 
最 小 生成 树 。 

假设 你 是 邀请 赛 的 经 理 , 需要 安排 W =2' 个 运动 员 之 间 一 轮 罗 
宾 邀 请 赛 (robin tournament) 。 在 这 次 邀请 赛 上 , 每 人 每 天 恰好 图 10-77 装 圆 问题 样 例 
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“10. 50 


* 10. 51 


*10.:52 


* 10. 53 


* 10. 54 


*10.55 


打 一 场 比赛 ; N-1 天 后 , 每 对 选手 间 均 已 进行 了 比赛 。 给 出 一 个 递归 算法 安排 比赛 。 
a 证 明 在 一 轮 罗 宾 邀 请 赛 中 ， 总 能 够 以 顺序 p; ，p;, ，…，p;, 安 排 运 动员 ， 使 得 对 所 有 1 <j < 
N, P RREN p, ,的 比赛 。 

给 出 一 个 0( Mog VW) 算 法 来 找 出 一 种 这 样 的 安排 。 你 的 算法 可 以 作为 上 一 问 (a) 的 证 明 。 
rat gertéi rie » Pas ***y Pyo 一 个 Voronoi 图 是 将 平面 分 成 N 个 区 域 R 的 一 
个 划分 , 使 得 R; 中 所 有 的 点 比 P 中 任何 其 他 的 点 都 更 接近 p;。 图 10-78 显示 7 个 (细心 安排 的 ) 
点 的 Voronoi 图 。 给 出 一 个 0( Mog N) 算 法 构造 Voronoi 图 。 

凸 多 边 形 ( convex polygon) 是 具有 如 下 性 质 的 多 边 形 : 端点 位 于 多 边 形 上 的 任意 线段 全 部 落 在 该 
多 边 形 中 。 凸 包 ( convex hull) 问题 是 找 出 一 个 将 平面 上 的 点 集 围 住 的 (面积 ) 最 小 的 凸 多 边 形 。 
图 10-79 显示 40 个 点 的 点 集 的 凸 包 。 给 出 找 出 凸 包 的 一 个 0( Mog N) 算 法 。 





图 10-78 Voronoi 图 图 10-79 ”一 个 凸 包 的 例子 


考虑 正确 调整 一 个 段落 的 问题 。 段 落 由 一 系列 长 度 分 别 为 a a, 0, ay 的 单词 w ，w;，…， 
wy 组 成 , 我 们 希望 把 它 破 成 长 度 为 工 的 一 些 行 。 单 词 间 由 空白 分 隔 , 空白 的 理想 长 度 是 ( E 
X), 但 是 空白 在 必要 的 时 候 可 以 伸 长 或 收缩 (不 过 必须 大 于 0), 使 得 一 行 ww; nw, 的 长 度 恰 
好 是 4。 然而 , 对 于 每 一 个 空白 5' 我 们 要 装填 | b' -b | 个 丑 点 (ugliness points), Ait, 最 后 一 行 
是 例外 , 我 们 只 在 b' <b 的 时 候 装 填 ( 换 句 话说 , 装填 只 在 收缩 的 时 候 进行 )， 因 为 最 后 一 行 不 需 
要 调整 。 这 样 , 如 果 b, ie 和 a, 之 间 的 空白 的 长 度 , 那么 任何 一 行 (最 后 一 行 除外 ) wim. °° 


« ü» D ton aos S |b, -b| =(j-i) |b' -b |, 其 中 4b' 是 该 行 上 空白 的 平均 大 小 。 这 只 


在 b'<b 时 对 最 后 一 行 适用 , 否则 ， AN 

a. 给 出 一 个 动态 规划 算法 来 找 出 将 w, w, =, wy 排 成 长 度 为 上 的 一 些 行 的 最 少 的 丑 点 设置 。 
提示 : 对 于 i=N, N-1,…, 1, 计算 Wiis “ty Wy 的 最 好 的 排版 方式 。 

b. 给 出 你 的 算法 的 时 间 和 空间 复杂 度 (作为 单词 个 数 UN. 的 函数 ) 。 

c. 考虑 我 们 使 用 固定 宽度 字体 的 特殊 情况 , 假设 5 的 最 优 值 为 1( 空格 )。 在 这 种 情况 下 , 不 多 
许 空白 收缩 , 因为 下 一 个 最 小 的 空白 空间 就 是 0。 给 出 一 个 线性 时 间 算 法 生成 在 这 种 情形 的 
最 少 的 丑 点 设置 5 

最 长 递增 子 序 列 (longest increasing subsequence) 问题 如 下 : 给 定数 a,，a,，…，an，, 找 出 使 得 

a4 <a, «* <a, H. i, <is<…<i 的 最 大 的 k 值 。 作 为 一 个 例子 , 如 果 输 入 为 3, 1, 4, 1, 5, 

9, 2, 6, 5, 那么 最 大 递增 子 列 的 长 度 为 4( 该 子 列 为 1， 4，5，9) 。 给 出 一 个 O(N ) 算法 求解 

最 长 递增 子 序列 问题 。 

最 长 公共 子 序列 (longest common subsequence) 问题 如 下 : 给 定 两 个 序列 4 =a, a,, ，…,aw 和 B= 

bi, by, oe, by, RR A ALB HHA WRK FPS Ce, c, n. ci WKE k 例如, 若 

Asd, ¥; D, à, m, 1, € 
和 
Bp TE o,g, t, 8,0, Hh i, Dy 
则 最 长 公共 子 序列 为 a8，m，i 其 长 度 为 3。 给 出 一 个 算法 求解 最 长 公共 子 序列 问题 。 你 的 算法 
应 该 以 OC MN) 时间 运 行 。 
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* 10. 56 


* 10. 57 


* 10. 58 


*10. 59 


* 10. 60 


10. 61 


10. 62 





字 型 匹配 问题 (pattern matching problem) 如下: 给 定 一 个 文本 串 S 和 一 种 字 型 P, 找 出 已 在 8 中 的 
首次 出 现 。 近似 字 型 匹配 (approximate pattern matching) 允许 三 种 类 型 的 上 次 误 匹 配 。 
1. 字符 在 5 中 但 不 在 P 中 。 
2. 字符 在 P 中 但 不 在 5 中 。 
3. P AS 可 以 在 一 个 位 置 上 不 同 。 
例如 , EP “data structures txtborpk” 中 搜索 “textbook” 人 允许 最 多 三 次 误 匹配 , 则 我 们 找到 一 
个 匹配 (插入 一 个 e, 将 一 个 7 改变 成 o, 删除 一 个 p)。 给 出 一 个 0(MN) 算 法 求解 近似 串 匹 配 问 
B. 其 中 M= |P| 以 及 N= |]. 
背包 问题 (knapsack problem) 的 一 种 形式 如 下 : 给 定 一 个 整数 集合 4 =al，a,，…，aw 以 及 整数 
K, 存在 4 的 一 个 其 和 恰好 为 天 子 集 吗 ? 
a. 给 出 一 个 算法 以 时 间 OCNK) 求 解 背包 问题 。 
b. 为 什么 它 并 不 证 明 已 = NP? 
给 你 一 个 货币 系统 , 它 的 硬币 值 c, ，c, ，…，cw 美 分 以 递减 顺序 排列 。 
a. 给 出 一 个 算法 计算 找 天 美 分 零钱 所 需 最 小 的 硬币 数 。 
b. 给 出 一 个 算法 计算 找 天 美 分 零钱 的 不 同 的 方法 数 。 
考虑 将 8 个 皇后 放 到 一 张 (8 行 8 列 的 ) 棋 盘 上 的 问题 。 两 皇后 被 说 成 是 互相 对 攻 的 ， 如 果 她 们 
处 在 同一 行 , 或 同一 列 , 或 同一 条 (不 必 是 主 ) 对 角 线 上 。 
a. 给 出 一 个 随机 化 算法 将 8 个 非 对 攻 的 皇后 放 到 一 张 棋盘 上 。 
b. 给 出 一 个 回 漳 算 法 解决 同一 个 问题 。 
c. 实现 这 两 个 算法 并 比较 它们 的 运行 时 间 。 
在 国际 象棋 中 , 在 R 行 C 列 上 的 国王 可 以 走 到 1<R'’<8B8 行 和 1<C'<B 列 处 (其 中 B 是 棋盘 的 
大 小 ) ,假设 或 者 
|R-R’| =2&|C-c’'| =1 
或 者 
|R-R' | =1R|c-c'| =2 
马 的 一 次 环 游 是 马 在 棋盘 上 的 一 系列 跳 行 , 它 恰好 访问 所 有 的 方 格 一 次 并 且 最 后 又 回 到 开始 的 
位 置 。 
a. 如 果 B 是 奇数 , 证 明 马 的 环 游 不 存在 。 
b. 给 出 一 个 回溯 算法 找 出 马 的 一 次 环 游 。 
考虑 图 10-80 中 的 递归 算法 , 该 算法 在 一 个 无 圈 图 中 寻找 从 ;到 1 的 最 短 赋 权 路 径 。 
a. 这 个 算法 对 于 一 般 的 图 为 什么 行 不 通 ? 
b. 证 明 该 算法 对 无 圈 图 可 以 运行 到 终止 。 à 
e。 该 算法 的 最 坏 情形 运行 时 间 是 多 少 ? Distance shortest( s,t ) 
令 4 为 元 素 是 0 RI M NINI AM | {pistance d, tmp; 
THERE S 由 形成 方 阵 的 任意 一 组 相 邻 项 组 成 。 
a. 设计 一 种 O(N’) TE, 该 法 确定 4 中 1 的 if(s ==t) 
最 大 子 和 矩阵 的 阶 数 。 例 如 , FEE Fi E return 0; 
H, 这 种 最 大 的 子 和 矩阵 是 4 行 4 列 的 
方 阵 。 
10111 000 
00 010 100 tmp = shortest(v,t ); 
00 111 000 if( c, + tmp < di) 
00 111 010 l d = Go + tmp; 
00111111 ratu ds 
01 011110 
01 011 110 


00 011 110 图 10-80 递归 的 最 短路 径 算法 伪 码 


d, = o6; 


for each Vertex v adjacent to s 
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"b. MRS 不仅 可 以 是 方形 而 且 还 可 以 是 矩形 , 重复 a 题 的 设计 。 最 大 的 含义 是 由 面积 来 度量 的 。 

10. 63 ”即使 计算 机 有 一 步 就 能 够 立即 赢 棋 的 棋 步 , 若 它 检测 到 另外 一 步 也 保证 赢 棋 的 棋 ， 则 它 可 能 不 
走 立即 赢 棋 的 棋 步 。 一 些 早 期 的 国际 象棋 程序 在 这 一 点 上 是 有 问题 的 ， 当 检测 到 被 迫 的 赢 着 时 ， 
它们 陷入 重复 位 置 上 的 循环 , 因此 使 得 对 方 宣 布 和 棋 。 在 三 连 游戏 棋 中 没有 这 个 问题 ,因为 程 
序 最 终 将 赢 棋 。 修 改 三 连 游戏 棋 算法 , 使 得 当 找到 赢 棋 位 置 时 ,导致 最 快 赢 棋 的 棋 步 总 是 被 采 
纳 。 做 法 是 : 通过 把 9-depth 加 到 COMP _ WIN 使 得 最 快 的 赢 棋 给 出 最 高 的 值 。 

10.64 ”编写 一 个 程序 对 弈 5 行 5 列 的 五 连 游戏 棋 , 其 中 4 个 在 一 行 则 赢 棋 。 你 能 搜索 到 终端 节点 吗 ? 

10.65 Boggle 游戏 由 字母 的 网 格 和 一 个 单词 表 组 成 。 游 戏 的 目标 是 找 出 网 格 中 的 一 些 单词 ,它们 满足 
约束 : 两 个 相 邻 的 字母 必须 在 网 格 中 也 相 邻 , 并 且 网 格 中 的 每 一 项 在 每 个 单词 中 最 多 使 用 一 次 。 
编写 进行 Boggle 游戏 的 程序 。 

10. 66 编写 进行 MAXIT 游戏 的 程序 。 棋 盘 是 NN 行列 的 网 格 , 游戏 开始 时 这 些 网 格 随机 放 入 整数 。 指 
定 一 个 位 置 为 当前 的 初始 位 置 。 游 戏 双方 交替 行 棋 。 每 轮 行 棋 的 一 方 必须 在 当前 的 行 或 列 上 选 
取 一 个 网 格 元 素 ， 所 选 位 置 的 值 则 被 加 到 游戏 者 的 得 分 中 , 并 且 这 个 位 置 就 变 成 了 当前 位 置 不 
能 再 选用 。 游 戏 双方 轮流 下 棋 直到 当前 行 和 列 上 的 网 格 元 素 都 被 选 过 ,此 时 游戏 终止 , 得 到 高 
分 的 游戏 者 获胜 。 

10.67 奥赛 罗 棋 ( 五子棋) 在 6 行 6 列 的 棋盘 上 进行 , 而 且 总 是 黑 方 赢 棋 。 编 写 一 个 程序 证 明之 。 如 果 
双方 都 弈 至 最 优 , 那么 最 后 的 得 分 是 多 少 ? 
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KF a-B 裁 减 更 多 的 信息 可 以 查阅 [1]、[31] 和 [34]。 一 些 下 国际 象棋 、 西 洋 跳棋 、 奥 赛 罗 棋 以 及 十 
五 子 棋 的 顶尖 级 的 程序 均 已 在 90 年 代 达 到 世界 等 级 的 状态 。 世 界 领 先 的 西洋 跳棋 程序 Chinook 已 经 在 
2007 年 被 改进 到 不 大 可 能 输 棋 的 地 步 [55 ] [38] 描述 一 个 奥赛 罗 棋 的 程序 。 这 篇 论文 出 自 计 算 机 游戏 
(大 部 分 是 国际 象棋 ) 专刊 , 这 个 专刊 是 思想 的 金 矿 。 其 中 有 一 篇 论文 描述 当 棋盘 上 只 有 少数 棋子 的 时 候 
使 用 动态 规划 彻底 解决 残局 的 下 棋 方法 。1989 年 ， 相 关 的 研究 已 经 导致 在 某 些 情况 下 50 步 规则 的 改变 
(后 来 于 1992 年 撤销 ) 。 

练习 10.42 在 [9] 中 解决 。 确 定 没 有 重复 距离 的 同 度 (homometric) 点 集 对 于 N >6 是否 存 在 是 一 个 尚 
未 解决 的 问题 。Christofides[ 13] 给 出 了 练习 10. 48 的 一 种 解法 ,此 外 还 给 出 一 个 最 多 以 3/2 倍 最 优 时 间 生 
成 一 个 环 游 的 算法 。 练 习 10.53 在 [32] 中 讨论 。 练 习 10. 56 在 [62] 中 解决 。 在 [35] 中 给 出 一 个 0(kN) 算 
法 。 练 习 10. 58 在 [12] 中 讨论 , 但 不 要 被 这 篇 论文 的 标题 所 误导 。 
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在 这 一 章 , 我 们 将 对 在 第 4 章 和 第 6 章 出 现 的 几 种 高 级 数据 结构 的 运行 时 间 进 行 分 析 , 特 
别 是 我 们 将 考虑 任意 顺序 的 M 次 操作 的 最 坏 情 形 运行 时 间 。 这 与 较 一 般 的 分 析 有 所 不 同 , 后 者 
是 对 任意 单 次 的 操作 给 出 最 坏 情形 的 时 间 界 。 

例如 , 我 们 已 经 看 到 AVL 树 以 每 次 操作 O(log N) 最 坏 情 形 时 间 支 持 标准 的 树 操作 。AVL 树 在 
实现 上 多 少 有 些 复杂 , 这 不 仅 是 因为 存在 许多 的 情形 , 而 且 还 因为 高 度 平衡 信息 必须 保存 和 正确 
地 更 新 。 使 用 AVL 树 的 原因 在 于 , 对 非 平衡 查找 树 的 一 系列 9(N) 操 作 可 能 需要 ON ) 时 间 , 这 
样 一 来 花费 就 昂贵 了 。 对 于 查找 树 来 说 , 一 次 操作 的 O(N) 最 坏 情形 运行 时 间 并 不 是 真正 的 问题 ， 
主要 的 问题 是 这 种 情形 可 能 反复 发 生 。 伸 展 树 (splay tree) 提供 一 种 可 喜 的 方法 ,虽然 任意 操作 可 
能 仍然 需要 @(N) 时 间 , 但 是 这 种 退化 行为 不 可 能 反复 发 生 , 而 且 我 们 可 以 证 明 , 任意 顺序 的 W 次 
操作 ( 总共) 花费 OCM log N) 最 坏 情形 时 间 。 因 此 , 在 长 时 间 运 行 中 这 种 数据 结构 的 行为 就 像 是 每 
次 操作 花费 Oog N) 时 间 。 我 们 把 它 称 为 摊 还 时 间 界 (amortized time bound) 。 

摊 还 界 比 对 应 的 最 坏 情 形 界 弱 ,因为 它 对 任意 单 次 操作 不 能 提供 保障 。 由 于 这 个 问题 通常 
并 不 重要 , 因此 如 果 能 够 对 一 系列 操作 保持 相同 的 界 同时 又 简化 数据 结构 , 那么 我 们 愿意 牺牲 
单 次 操作 的 界 。 挫 还 界 比 相同 的 平均 情形 界 要 强 。 例 如 ,二 叉 查 找 树 每 次 操作 的 平均 时 间 为 
O(log N) , 但 是 对 于 连续 M 次 操作 仍 可 能 花费 0(MN) 时 间 。 

因为 得 到 推 还 界 需 要 查看 整个 操作 序列 而 不 是 仅仅 一 次 操作 ,所 以 我 们 希望 我 们 的 分 析 更 
具 技 巧 性 。 我 们 将 看 到 这 种 期 望 一 般 会 实现 。 

本 章 我 们 将 : 

e 分 析 二 项 队列 操作 。 

e 分 析 斜 扒 。 

© 介绍 并 分 析 斐 波 那 契 堆 。 

e 分 析 伸 展 树 。 


11.1 一 个 无 关 的 智力 问题 


考虑 下 列 问题 : 将 两 个 小 猫 放 在 足球 场 的 对 面 , 相距 100 码 。 它 们 以 每 分 钟 10 码 的 速度 相 
向 行走 。 同 时 , 这 两 个 小 猫 的 母亲 在 足球 场 的 一 端 , 她 可 以 以 每 分 钟 100 码 的 速度 跑步 。 猫 妈 
妈 从 一 个 小 猫 跑 到 另 一 只 小 猫 , 来 回 轮流 跑 而 速度 不 减 , 一 直 跑 到 两 个 小 猫 (从 而 它们 的 猫 妈 
妈 也 ) 在 中 场 相 遇 。 问 猫 妈妈 跑 了 多 远 ? 

使 用 蛮 力 计算 不 难 解 决 这 个 问题 。 我 们 把 细节 留 给 读者 , 不过, 预计 这 个 计算 将 涉及 计算 
无 穷 几何 级 数 的 和 。 虽 然 这 种 直接 计算 能 够 得 到 答案 , 但 是 实际 上 通过 引入 一 个 附加 变量 ( 即 
时 间 ), 可 以 得 到 简单 得 多 的 解法 。 

因为 两 个 小 猫 相距 100 码 远 而 且 以 每 分 钟 20 码 的 和 速度 互相 接近 , 所 以 他 们 花 5 分 钟 即 可 
到 达 中 场 。 由 于 猫 妈 妈 每 分 钟 跑 100 码 , 因此 她 跑 的 总 距离 是 500 码 。 

这 个 问题 曾 述 了 一 个 思路 ， 即 有 时 候 间接 求解 一 个 问题 要 比 直接 求解 容易 。 我 们 将 要 进行 
的 摊 还 分 析 将 用 到 这 个 思路 。 我 们 将 引入 一 个 附加 变量 , 叫 作 位 势 (potential) , 它 使 我 们 能 够 证 
明 若 不 引入 位 势 很 难 建立 的 一 些 结果 。 


11.2 二 项 队列 
我 们 将 要 考查 的 第 一 个 数据 结构 是 第 6 章 中 的 二 项 队列 , 现在 我 们 进行 简要 的 复习 。 可 
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Al, 二 项 树 (binomial tree) B, 是 一 棵 单 节点 树 , Hk»0, 二 项 树 B, 通过 将 两 棵 二 项 树 B, t 
到 一 起 而 得 到 。 二 项 树 B, 到 B, 如 图 11-1 所 示 。 


图 11-1 iie Ba, Bi, Bı, B, AB, 


一 棵 二 项 树 的 节点 的 秩 (rank ) 等 于 它 的 子 节点 的 个 数 ; 特别 地 ，B8 的 根 节点 的 秩 为 E。 二 
项 队列 是 堆 序 的 二 项 树 的 集合 , 在 这 个 集合 中 对 于 任意 的 上 最 多 可 以 存在 一 棵 二 项 树 B,。 
图 11-2 显示 两 个 二 项 队列 Hl Al A 

最 重要 的 操作 是 merge( 合并) 。 为 了 合并 两 个 二 项 队列 , 需要 执行 类 似 于 二 进 制 整数 加 法 
的 操作 : 在 任 一 阶段 , 可 以 有 零 、 一 、 二 或 三 棵 B, BE, 它 依赖 于 两 个 优先 队列 是 否 包含 一 棵 B, 
树 以 及 是 否 有 一 棵 B, 树 从 前 一 步 转 入 。 如 果 存 在 零 棵 或 一 棵 B, BE, 那么 它 就 作为 一 棵 树 被 放 
到 合并 后 的 二 项 队列 中 ; 如 果 有 两 棵 B, 树 , 那么 它们 被 合并 成 一 棵 B,,, 树 并 且 被 并 入 到 结果 
中 ; 如 果 有 三 棵 B, 树 , 那么 将 一 棵 作为 树 放 入 到 二 项 队列 中 而 另 两 棵 则 合并 成 一 棵 且 被 并 人 到 
结果 中 。H, Al A, 合并 的 结果 如 图 11-3 所 示 。 
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图 11-2 ”两 个 二 项 队列 8 n H, 图 11-3 二 项 队列 H,: AIF H, AH, 的 结果 


插入 操作 通过 创建 一 个 单 节点 二 项 队列 并 执行 一 次 merge 来 完成 。 做 这 项 工作 所 用 的 时 
ia M «1, 其 中 M 代表 不 在 该 二 项 队列 中 的 二 项 树 B, 的 最 小 型 号 。 因 此 , 向 一 个 有 一 棵 B, 
树 但 没有 B, 树 的 二 项 队列 进行 的 插入 操作 需要 两 步 。 删 除 最 小 元 通过 把 最 小 元 除去 并 将 原 二 
项 队列 分 裂 成 两 个 二 项 队列 然后 再 将 它们 合并 来 完成 。 第 6 章 给 出 了 对 这 些 操 作 的 比较 详细 的 

我 们 首先 考虑 一 个 非常 简单 的 问题 。 假 设 要 建立 一 个 含有 WN 个 元 素 的 二 项 队列 。 我 们 知 
É, 建立 一 个 含有 N 个 元 素 的 二 又 堆 可 以 以 O(CN) 时间 完 成 , 因此 我 们 希望 对 于 二 项 队列 也 有 
一 个 类 似 的 界 。 

声明 : N 个 元 素 的 二 项 队列 可 以 通过 放 次 相继 插入 而 以 时 间 O CN) 建成 。 

这 个 声明 如 果 成 立 , 那么 它 就 给 出 一 个 极其 简单 的 算法 。 由 于 每 次 插入 的 最 坏 情形 时 间 是 
O(logN), 因此, 这 个 声明 是 否 成 立 并 不 是 显然 的 。 前 面 讨论 过 , 如 果 将 该 算法 应 用 到 二 又 堆 ， 
则 运行 时 间 将 是 0( NlogN) 。 

要 想 证 明 该 声明 , 可 以 直接 进行 计算 。 为 了 测 出 运行 时 间 , 我 们 将 每 次 插入 的 代价 定义 为 
一 个 时 间 单 位 加 上 每 一 步 链接 的 一 个 附加 单位 。 将 所 有 插入 的 时 间 代 价 求 和 就 得 到 总 的 运行 时 
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间 。 这 个 总 的 时 间 为 入 个 单位 加 上 总 的 链接 步 数 。 第 一 、 第 三 、 第 五 以 及 所 有 编号 为 奇数 不 需 
要 链接 的 步骤 , 因为 在 插入 时 B, 不 出 现 。 因 此 , 有 一 半 的 插入 不 需要 链接 ,四 分 之 一 的 插入 只 
需要 一 次 链接 (第 二 、 第 六 、 第 十 次 插入 等 等 ), 八 分 之 一 的 插入 需要 两 次 链接 ,等 等 。 我 们 可 
以 把 所 有 这 些 加 起 来 并 确定 用 N 作为 链接 步 数 的 界 ， 从 而 证 明 该 声明 。 不 过 ， 当 我 们 试图 分 析 
一 系列 不 仅仅 是 插入 操作 的 时 候 , 这 种 蛮 力 计算 将 无 助 于 其 后 的 进一步 分 析 ， 因 此 我 们 将 使 用 
另外 一 种 方法 来 证 明 这 个 结果 。 

考虑 一 次 插入 的 结果 。 如 果 在 插入 时 不 出 现 B, BE, 那么 使 用 与 上 面相 同 的 计数 方法 可 知 
这 次 插入 的 总 代价 是 一 个 时 间 单 位 。 现 在 , 插入 的 结果 有 了 一 棵 B, 树 , 这 样 , 我 们 已 经 把 一 棵 
树 添加 到 二 项 树 的 森林 中 。 如 果 存 在 一 棵 B, 树 但 是 没有 B, 树 , 那么 插入 花费 两 个 单元 的 时 间 。 
新 的 森林 将 有 一 棵 B, 树 但 不 再 有 B, 树 ， 因 此 在 森林 中 树 的 数目 并 没有 变化 。 花 费 三 个 单元 时 
间 的 一 次 插入 将 创建 一 棵 B, 树 但 消除 一 棵 B, 和 B 树 , 这 导致 在 森林 中 净 减 少 一 棵 树 。 事 实 
E, 容易 看 到 ,一般 说 来 花费 e 个 单元 时 间 的 一 次 插入 导致 在 森林 中 净 增 加 2 — e 棵 树 ， 这 是 因 
为 创建 了 一 棵 B._, 树 而 消除 了 所 有 的 B; 树 , 0<i<c-1。 因 此 , 代价 昂贵 的 插入 操作 删除 一 些 
H, 而 低廉 的 插入 却 创建 一 些 树 。 

^ C, 是 第 i 次 插入 的 代价 。 令 7 为 第 i 次 插入 后 的 树 的 棵 数 。7, =0 为 树 的 初始 棵 数 。 此 
时 我 们 得 到 不 变 式 

C, * (T, -T,,) 22 (11.1) 
于 是 
Ü on Xr 
C, *(T,-T,) 22 


Cy. + (Th "uad =2 
Cy + (Ty - Tyi) =2 


把 这 些 方程 都 加 起 来 , 则 大 部 分 的 T, 项 被 消去 , 最 后 剩 下 


yc «r7, - f, -2N 
或 等 价 于 ， 


N 
Y, C, = 2N - (T, - T9) 
i21 


考虑 到 T, 20 以 及 NN 次 插入 后 的 树 的 棵 数 T, 确实 为 非 负 , 因此 (Tv -mo) 非 负 。 于 是 
> C, «2N 


这 就 证 明了 我 们 的 声明 。 

在 buildBinomialQueue 例 程 运行 期 间 , 每 一 次 插入 都 有 一 个 最 坏 情形 运行 时 间 O(log 
N), 但 是 由 于 整个 例 程 最 多 用 到 2N 个 单位 的 时 间 , 因此 这 些 插入 的 行为 就 像 是 每 次 使 用 不 多 
于 两 个 单位 的 时 间 。 

这 个 例子 阐明 了 我 们 将 要 使 用 的 一 般 技 巧 。 数 据 结构 在 任 一 时 刻 的 状态 由 一 个 称 为 位 势 
( potential) 的 函数 给 出 。 这 个 位 势 函 数 不 由 程序 存储 ,而 是 一 个 计数 装置 , 该 装置 将 帮助 分 析 。 
当 一 些 操 作 花 费 少 于 我 们 允许 它们 使 用 的 时 间 时 , 则 没有 用 到 的 时 间 就 以 一 个 更 高 位 势 的 形式 
“存储 ”起 来 。 在 我 们 的 例子 中 , 数据 结构 的 位 势 就 是 树 的 棵 数 。 在 上 面 的 分 析 中 , 当 有 一 些 
插入 只 用 到 一 个 单位 而 不 是 规定 的 两 个 单位 的 时 候 , 则 这 个 额外 的 单位 通过 增加 位 势 而 被 存储 
起 来 以 备 其 后 使 用 。 当 操作 出 现 超出 规定 的 时 间 时 , 则 超出 的 时 间 通 过 位 势 的 减少 来 计算 。 可 
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以 把 位 势 看 做 是 一 个 储蓄 账户 。 如 果 一 次 操作 使 用 了 少 于 指定 的 时 间 , 那么 这 个 差额 就 被 存储 
起 来 以 备 后 面 更 昂贵 的 操作 使 用 。 图 11-4 显示 由 buildBinomialQueue 对 一 系列 插入 操作 
所 使 用 的 累积 的 运行 时 间 。 可 以 看 到 , 运行 时 间 从 不 超过 2 而 且 在 任 一 次 插入 后 二 项 队列 中 
的 位 势 计 量 着 存储 量 。 
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图 11-4 连续 入 次 insert 


一 旦 位 势 函 数 被 选 定 , 就 可 写 出 主要 的 方程 : 
TAPolenhal=T ond (11.2) 
Ta( 一 次 操作 的 实际 时 间 ), 代表 需要 执行 一 次 特定 操作 需要 的 精确 时 间 量 。 例 如 在 二 又 查找 
树 中 , 执行 一 次 contains(x) 的 实际 时 间 是 1 加 上 包含 x 的 节点 的 深度 。 如 果 将 整个 序列 的 
基本 方程 加 起 来 , 并 且 最 后 的 位 势 至 少 像 初始 位 势 一 样 大 , 那么 摊 还 时 间 就 是 在 操作 序列 执行 
期 间 所 用 到 的 实际 时 间 的 一 个 上 界 。 注 意 ,， 当 7 在 从 一 个 操作 到 另 一 操作 变化 时 ， Timoria E 
是 稳定 的 。 
选择 一 个 位 势 函 数 以 确保 一 个 有 意义 的 界 是 一 项 艰难 的 工作 ; 不 存在 一 种 实用 的 方法 。 一 
般 说 来 , 在 尝试 过 许多 位 势 函 数 以 后 才能 够 找到 一 个 合适 的 函数 。 不 过 ,上 面 的 讨论 提出 一 些 
法 则 , 这 些 法 则 告诉 我 们 好 的 位 势 函 数 所 具有 的 一 些 性 质 。 位 势 函 数 应 该 : 
e 总 假设 它 的 最 小 值 位 于 操作 序列 的 开始 处 。 选 择 位 势 函 数 的 一 种 常用 方法 是 保证 位 势 函 
数 初始 值 为 0, 且 总 是 非 负 的 。 我 们 将 要 遇 到 的 所 有 例子 都 使 用 这 种 方法 。 
e 消去 实际 时 间 中 的 一 项 。 在 我 们 的 例子 中 , 如 果实 际 的 花费 是 , 那么 位 势 改变 为 2 -co。 
当 把 这 些 加 起 来 就 得 到 摊 还 花费 是 2, 这 在 图 11-5 中 表 出 。 
10 
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图 11-5 在 一 系列 操作 中 插入 的 花费 和 每 一 次 操作 的 位 势 变化 


现在 我 们 可 以 对 二 项 队列 操作 进行 完整 的 分 析 。 
定理 11.1 insert, deletMin, 以 及 merge 对 于 二 项 队列 的 摊 还 运行 时 间 分 别 是 
O(1), O(log N) fil O(log N). 
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证 明 : 

位 势 函 数 是 树 的 棵 数 。 初 始 的 位 势 函 数 为 0, 且 位 势 总 是 非 负 的 , 因此 摊 还 时 间 是 实际 时 
间 的 一 个 上 界 。 对 insert 的 分 析 从 上 面 的 论证 可 以 得 到 。 对 于 merge, 假设 两 棵 树 分 别 有 N, 
MN, RARI T A T, R ONEN, N, 执行 合并 的 实际 时 间 为 0(log(N,)+ 
log( N,) ) =O(log N)。 在 合并 之 后 , 最 多 可 能 存在 log N PR, 因此 位 势 最 多 可 以 增加 O(log N). 
这 就 给 出 一 个 挫 还 的 界 O(log N), deleteMin 操作 的 界 可 用 类 似 的 方法 得 到 。 口 


11.3 HË 


二 项 队列 的 分 析 可 以 算是 摊 还 分 析 一 个 容易 的 实例 。 现 在 我 们 来 考察 斜 堆 。 像 许多 的 例子 
一 样 , 一 旦 找到 正确 的 位 势 函数 , 分 析 起 来 就 容易 了 。 困 难 的 部 分 在 于 选择 一 个 有 意义 的 位 
势 函数 。 

对 于 斜 堆 , 我 们 知道 关键 的 操作 是 合并 。 为 了 合并 两 个 斜 堆 , 我 们 把 它们 的 右 路 径 合 并 并 
使 之 成 为 新 的 左 路 径 。 对 于 新 路 径 上 的 每 一 个 节点 , 除去 最 后 一 个 外 , 老 的 左 子 树 作为 右 子 树 
而 附 于 其 上 。 在 新 的 左 路 径 上 的 最 后 节点 已 知 没 有 右 子 树 , 因此 给 它 一 棵 右 子 树 就 不 明智 了 。 
我 们 所 要 考虑 的 界 不 依赖 于 这 个 例外 , 而 如 果 例 程 是 递归 地 编写 的 , 那么 这 又 是 自然 要 发 生 的 
情况 。 图 11-6 显示 合并 两 个 斜 堆 后 的 结果 。 


(3) D 
(6) rO- S 
Oo 0 Gr p Ww Ọ 
(6 (3 


图 11-6 合并 两 个 斜 夫 


设 有 两 个 斜 堆 H, AH, HEK ARAR EDIE rn Mr 个 节点 。 此 时 , 执行 合并 的 实际 
时 间 与 +7, 成 正比 , 因此 我 们 将 省 去 大 0 记 法 而 对 右 路 径 上 的 每 一 个 节点 取 一 个 单位 的 时 
间 。 由 于 这 些 堆 没有 固定 的 结构 , 因此 两 个 堆 的 所 有 节点 都 位 于 右 路 径 上 的 情况 是 可 能 发 生 
的 ,而 这 将 给 出 合并 两 个 堆 的 最 坏 情形 的 界 ON) (练习 11.3 要 求 构造 一 个 例子 )。 我 们 将 证 
明 合 并 两 个 斜 堆 的 推 还 时 间 为 0(logN) 。 

, 现在 需要 的 是 能 够 获得 斜 堆 操 作 效 果 的 某 种 类 型 的 位 势 函 数 。 我 们 知道 , 一 次 merge 的 
效果 是 处 在 右 路 径 上 的 每 一 个 节点 都 被 移 到 左 路 径 上 , 而 其 原 左 儿 子 变 成 新 的 右 儿子 。 一 种 想 
法 是 把 每 一 个 节点 算 为 右 节 点 或 左 节点 来 分 类 , 这 要 看 节点 是 否 是 右 儿 子 来 定 , 这 时 我 们 把 右 
节点 的 个 数 作 为 位 势 函数 。 虽 然 位 势 初 始 时 为 0 并 且 总 是 非 负 的 , 但 是 问题 在 于 这 种 位 势 在 一 
次 合并 后 并 不 减少 从 而 不 能 恰当 地 反映 在 数据 结构 中 的 储备 量 。 因 此 , 这 样 的 位 势 函数 不 能 够 
用 来 证 明 所 要 求 的 界 二 一 

一 个 类 似 的 想法 是 把 节点 分 成 重 节 点 或 轻 节点 ， 
这 要 看 任 一 节点 的 右 子 树 上 的 节点 是 否 比 左 子 树 上 的 
节点 多 来 确定 。 

定义 11.1 一 个 节点 p WIR Hot T MES JG GE 
至 少 是 该 六 节点 的 后 裔 总 数 的 一 半 , 则 称 节点 p 是 重 
的 (heavy), 否则 称 之 为 轻 的 (light) 。 注 意 , 一 个 节点 
的 后 裔 个 数 包括 该 节点 本 身 。 

例如 , 图 11-7 表示 一 个 斜 堆 。 关 键 字 为 15，3， 
6, 12 和 7 的 节点 是 重 节点 , 而 所 有 其 他 节点 都 是 轻 图 11-7 和 斜 堆 一 一 其 中 的 重 节点 是 
节点 。 3, 6, 7, 12 和 15 
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我 们 将 要 使 用 的 位 势 函 数 是 这 些 堆 (的 集合 ) 中 的 重 节点 的 个 数 。 看 起 来 这 可 能 是 一 种 好 
的 选择 , 因为 一 条 长 的 右 路 径 将 包含 非常 多 的 重 节点 。 由 于 这 条 路 径 上 的 节点 将 要 交换 它们 的 
子 节点 , 因此 这 些 节 点 将 被 转变 成 合并 结果 中 的 轻 节点 。 

定理 11.2 合并 两 个 斜 堆 的 摊 还 时 间 为 0(log N) 。 

证 明 : 

SH MH APT HE, 分 别 具 有 N 入 ;个 节点 。 设 有 WARE, ME AA, 个 重 
和 节点, Seal +h, 个 节点 。 同 样 , HH, HERA TE EUH L 个 轻 节点 和 有 个 重 节点 , HAL +h, 个 
节点 。 

如 果 我 们 采用 约定 : 合并 两 个 斜 堆 的 花费 是 它们 右 路 径 上 节点 的 总 数 , 那么 执行 合并 的 实 
际 时 间 就 是 外 +h +1, +h,。 现 在 , 其 重 / 轻 状态 能 够 改变 的 节点 只 荐 那些 最 初 位 于 右 路 径 上 的 
节点 (并 最 后 出 现在 左 路 径 上 ), 因为 再 没有 别 的 节点 的 子 树 被 交换 。 这 可 参见 图 11-8 中 的 


例子 。 
OQ | Ø 
© ORO 
CG 9 Gr O 
© D 


图 11-8 合并 后 重 / 轻 状态 的 变化 


如 果 一 个 重 节点 最 初 是 在 右 路 径 上 , 那么 在 合并 后 它 必 然 成 为 一 个 轻 节点 。 位 于 右 路 径 上 
的 其 余 节 点 是 轻 节 点 , 它们 可 能 变 成 也 可 能 变 不 成 重 节点 , 但 是 由 于 我 们 要 证 明 一 个 上 界 , 因 
此 必须 假设 最 坏 的 情况 , 即 它们 都 变 成 了 重 节点 并 使 得 位 势 增 加 。 此 时 , 重 节点 个 数 的 净 变 化 
最 多 为 1 +l, -h-hh,。 把 实际 时 间 和 位 势 的 变化 (方程 (11.2)) 加 起 来 则 得 到 一 个 摊 还 
界 2(1 +1,)。 

现在 必须 证 明 L +1,=OClog N)。 由 于 加 和 "是 原 右 路 径 上 轻 节点 的 个 数 ， 而 一 个 轻 节点 
的 右 子 树 小 于 以 该 轻 节 点 为 根 的 树 的 大 小 的 一 半 , 由 此 直接 推出 右 路 径 上 轻 节点 的 个 数 最 多 为 
log N, +log N ,这 就 是 O(log N)。 

注意 到 初始 的 位 势 为 0 而 且 位 势 总 是 非 负 的 , 我 们 的 证 明 也 就 完成 了 。 验 证 这 一 点 很 重 





要 ,否则 捧 还 时 间 就 不 能 成 为 实际 时 间 的 界 而 且 也 就 没有 意义 了 。 口 
由 于 insert 和 deleteMin 操作 基本 上 就 是 一 些 merge, 因此 它们 的 摊 还 界 也 是 0(log N) 。 
11.4 斐 波 那 契 堆 


4E 9.3.2 节 我 们 指出 如 何 使 用 优先 队列 来 改进 Dijkstra 最 短路 径 算 法 粗略 的 运行 时 间 
OC |Y| )。 重 要 的 观察 结果 是 运行 时 间 被 | E | 次 decreaseKey 操作 和 | V | 次 insert 和 
deleteMin 操作 所 控制 。 这 些 操作 发 生 在 大 小 最 多 为 |V| 的 集合 上 。 通 过 使 用 二 叉 堆 , 所 有 
这 些 操作 花费 0(log | V | ) 时 间 , 因此 Dijkstra 算法 最 后 的 界 可 以 减 到 O( | E| log |V|). 

为 了 降低 这 个 时 间 界 ,必须 改进 执行 decreaseKey 操作 所 需要 的 时 间 。 我 们 在 6.5 节 所 
描述 的 4- 堆 给 出 对 于 decreasekey 操作 以 及 insert 操作 的 O(log, | V | ) 时间 界 , 但 对 
deleteMin 的 界 则 是 O(d log , | | )。 通 过 选择 4 来 平衡 带 有 | 了 | 次 deleteMin 操作 的 | 五 | 次 
decreasekey 操作 的 开销 , 并 考虑 到 d 必须 总 是 至 少 为 2, 那么 我 们 看 到 d 的 一 个 好 的 选择 是 

d=max(2, L\E\/\V\)) 
它 把 Dijkstra 算法 的 时 间 界 改进 到 
OC | E] loge. [e]; |v| p | VD 
斐 波 那 契 堆 是 以 0(1) 摊 还 时 间 支 持 所 有 基本 的 堆 操作 的 一 种 数据 结构 , 但 deleteMin 和 
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delete 除外 , 它们 花费 O(log N) 的 摊 还 时 间 。 我 们 立即 得 出 , 在 Dijkstra 算法 中 的 那些 堆 操作 
将 总 共 需 要 0( |E| + | V | log | V | ) 的 时 间 。 

斐 波 那 契 堆 (Fibonacci heap) “通过 添加 两 个 新 观念 推广 了 二 项 队列 : 

decreaseKey 的 一 种 不 同 的 实现 方法 : 我 们 以 前 看 到 的 那 种 方法 是 把 元 素 朝向 根 节点 上 
滤 。 对 于 这 种 方法 似乎 没有 理由 期 望 0(1 ) 的 摊 还 时 间 界 ,因此 需要 一 种 新 的 方法 。 

懒惰 合并 (lazy merging): 只 有 当 两 个 堆 需 要 合并 时 才 进 行 合 并 。 这 类 似 于 懒惰 删除 。 对 于 
懒惰 合并 , merge 是 低廉 的 , 但 是 因为 懒惰 合并 并 不 实际 把 树 结 合 在 一 起 , 所 以 deleteMin 
操作 可 能 会 遇 到 许多 的 树 ， 从 而 使 这 种 操作 的 代价 高 昂 。 任 何 一 次 deleteMin 都 可 能 花费 线 
性 时 间 , 但 是 它 总 能 够 把 时 间 归 咎 到 前 面 的 一 些 merge 操作 中 去 。 特 别 地 , 一 次 昂贵 的 
deleteMin 必须 在 其 前 面 要 有 大 量 的 非常 低廉 的 merge 操作 , 这 样 它们 才能 够 储存 额外 的 
位 势 。 
11.4.1 切除 左 式 堆 中 的 节点 

E WEH, decreaseKey 操作 是 通过 降低 节点 的 值 然后 将 其 朝 着 根 上 滤 直 到 建成 堆 序 

来 实现 的 。 在 最 坏 的 情形 下 , 它 花 费 O(log N) 时 间 , 这 是 平衡 树 中 通 向 根 的 最 长 路 径 的 长 。 

如 果 代 表 优先 队列 的 树 不 具有 O(log N) 的 深度 , 那么 这 种 方法 不 适用 。 例 如 , 若 将 这 种 方 
法 用 于 左 式 堆 , 则 decreaseKey 操作 可 能 花费 @(N) 时 间 , 如 图 11-9 中 的 例子 所 示 。 





11-9 通过 上 滤 将 N -I 递减 到 0 花费 9(N) 时 间 


我 们 看 到 , 对 于 左 式 堆 来 说 decreaseKey 操作 需要 其 他 的 方法 。 见 图 11-10 中 的 左 式 堆 
的 例子 ， 假 设 我 们 想 要 将 值 为 9 的 关键 字 减 低 到 0 若 对 该 堆 变 动 , 则 必 将 引起 堆 序 的 破坏 , 这 
种 破坏 在 图 11-11 中 用 虚线 标示 。 





图 11-10 FE BI ARSE H 


我 们 不 想 把 0 上 滤 到 根 , 正如 我 们 已 经 看 到 的 ,因为 存在 一 些 情形 使 得 这 样 做 代价 太 大 。 
解决 的 办 法 是 把 堆 沿 着 虚线 切 开 ,如 此 得 到 两 棵 树 , 然后 再 把 这 两 棵 树 合并 成 一 棵 。 令 X 为 要 


执行 decreaseKey 操作 的 节点 , 令 P 为 它 的 父 节 点 。 在 切断 以 后 我 们 得 到 两 棵 树 ， 即 根 为 了 - 


f H,, ARI T, 它 是 原来 的 树 除去 H, 后 得 到 的 树 。 具 体 情况 如 图 11-12 所 示 。 





日 ”这 个 名 字 来 自 于 这 种 数据 结构 的 一 个 性 质 , 后 面 将 在 本 节 证 明 它 。 
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图 11-11 将 9 降 到 0 引起 堆 序 的 破坏 图 11-12 切断 之 后 得 到 的 两 棵 树 
如 果 这 两 棵 树 都 是 左 式 堆 , 那么 它们 可 以 以 时 间 O(log N) 合并 , 整个 操作 也 就 完成 了 。 容 
DAH, Hy EERW, 因为 没有 节点 的 后 裔 发 生变 化 。 由 于 它 的 所 有 节点 原本 就 满足 左 式 堆 的 
性 质 , 因此 现在 也 必然 满足 。 
然而 , 这 种 方案 似乎 还 是 行 不 通 ,因为 T, 未 必 是 左 式 堆 。 不 过 , 容易 恢复 左 式 堆 的 性 质 ， 
这 要 用 到 下 列 两 个 观察 到 的 结论 : 
e 只 有 从 P 到 的 根 的 路 径 上 的 节点 可 能 破坏 左 式 堆 的 性 质 ; 它们 可 以 通过 交换 子 节点 来 
. 由 于 最 大 右 路 径 长 最 多 有 L log( N+ Dr T AR. 因此 我 们 只 需 检 查 从 P 到 T, 的 根 的 路 径 
上 的 前 Llog(N+1)J 个 节点 。 图 11-13 显示 H, 和 将 转变 成 左 式 堆 后 的 H, o 
因为 我 们 能 够 以 O (log N) 步 将 7 转变 成 左 式 堆 有, 然后 合并 了 及 MH, 所 以 我 们 得 到 一 个 
在 左 式 堆 中 执行 decreaseKey 的 O(log N) 算 法 。 图 11-14 显示 的 堆 是 该 例 的 最 后 结果 。 





H, 


图 11-13 Ki T, EREHE H, 后 的 情形 图 11=14” 通 过 合并 H, 和 及 而 完成 操 
作 decreaseKey(X, 9) 


11.4.2 二 项 队列 的 懒惰 合并 

斐 波 那 契 堆 所 使 用 的 第 二 个 想法 是 懒惰 合并 。 我 们 将 把 这 个 想法 用 于 二 项 队列 并 证 明 执 行 
一 次 merge 操作 (还 有 插入 操作 , 它 是 一 种 特殊 情形 ) 的 挫 还 时 间 为 0(1)。 对 于 deleteMin, 
其 挫 还 时 间 仍 然 是 O(log N) 。 

这 个 想法 如 下 : 为 了 合并 两 个 二 项 队列 , 只 要 把 两 个 二 项 树 的 表 连 在 一 起 , 结果 得 到 一 个 
新 的 二 项 队列 。 这 个 新 的 队列 可 能 含有 相同 大 小 的 多 棵 树 ， 因 此 破坏 了 二 项 队列 的 性 质 。 为 了 
保持 一 致 性 , 我 们 将 把 它 叫 作 懒 情 二 项 队列 (1lazy binomial queue)。 这 是 一 种 快速 操作 , 该 操作 
总 是 花费 常数 (最 坏 情形 ) 时 间 。 和 前 面 一 样 , 一 次 插入 通过 创建 一 个 单 节 点 二 项 队列 并 将 其 合 
并 而 完成 。 区 别 在 于 merge 是 懒惰 的 。 

deleteMin 操作 要 麻烦 得 多 , 因为 此 处 需要 我 们 最 终 把 懒惰 二 项 队列 转变 回 到 标准 的 二 
项 队列 , 不 过 , 正如 我 们 将 要 证 明 的 , 它 仍然 花费 Oog N) 的 摊 还 时 间 一 一 但 不 像 以 前 是 O(log 
N) 最 坏 情 形 时 间 。 为 了 执行 deleteMin, 我 们 找 出 (并 最 终 返回 ) 最 小 元 素 。 如 前 所 述 , 我 们 
将 它 从 队列 中 删除 , 使 得 它 的 每 一 个 儿子 都 成 为 一 棵 新 的 树 。 此 时 通过 合并 两 棵 相等 大 小 的 树 
直至 不 再 可 能 合并 为 止 而 把 所 有 的 树 合并 成 一 个 二 项 队列 。 

例如 , 图 11-15 表示 一 个 懒惰 二 项 队列 。 在 一 个 懒惰 二 项 队列 中 , 可 能 有 多 于 一 棵 的 树 有 相同 
的 大 小 。 为 了 执行 deleteMin, 我 们 按 以 前 那样 把 最 小 的 元 素 删除 , 并 得 到 图 11-16 中 的 树 。 
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图 11-15 懒惰 二 项 队列 
0 6 9 Ø 4 (D 
(10) 21) H (8) 18 
Q0) 
图 11-16 在 删除 最 小 元 素 (3) 后 的 懒 居 二 项 队列 


现在 我 们 必须 将 所 有 的 树 合并 而 得 到 一 个 标准 的 二 项 队列 。 一 个 标准 的 二 项 队列 每 个 秩 
(rank) 上 最 多 有 一 棵 树 。 为 了 有 效 地 进行 这 项 工作 , 我 们 必须 能 够 以 正比 于 出 现 的 树 的 棵 数 (7) 
的 时 间 ( 或 log N, 哪个 大 用 哪个 ) 完 成 merge。 为 此 , 我 们 构造 表 的 一 个 数组 : Ly, Ls os Lys 
其 中 Ru。 是 最 大 的 树 的 秩 。 每 个 表 Ly 包含 秩 为 R 的 所 有 的 树 。 然 后 应 用 图 11-17 中 的 过 程 。 





for( R = 0; R <= [log NJ]; R+ ) 
while( |Lg| >= 2 ) 
( 


Remove two trees from Lg; 
Merge the two trees into a new tree; 
Add the new tree to LR+1; 

) 


图 11-17 恢复 二 项 队列 的 过 程 


每 通过 一 次 过 程 中 的 从 第 4 行 到 第 6 行 的 循环 , 树 的 总 棵 数 都 要 减 1。 这 意味 着 , 这 部 分 每 
次 执行 都 花费 常数 时 间 的 代码 只 能 够 执行 了 -1 次 , 其 中 了 是 树 的 棵 数 。 这 里 的 for 循环 计数 
All while 循环 末尾 的 检测 花费 O (log N) 时间, 这 使 得 运行 时 间 成 为 所 要 求 的 0(T+ 
logN)。 图 11-18 显示 该 算法 对 前 面 二 项 树 的 集合 的 执行 情况 。 
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图 11-18 把 一 些 二 项 树 合并 成 一 个 二 项 队列 


懒 情 二 项 队列 的 摊 还 分 析 
为 了 进行 懒惰 二 项 队列 的 挫 还 分 析 , 我 们 将 用 到 与 标准 二 项 队列 所 使 用 的 相同 的 位 势 函 
数 。 因 此 , 懒惰 二 项 队列 的 位 势 是 树 的 棵 数 。 
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定理 11.3 merge Ml insert 的 摊 还 运行 时 间 对 于 懒惰 二 项 队列 均 为 0(1)。aeleteMin 
的 摊 还 运行 时 间 为 O(log N) 。 

证 明 : 

这 里 的 位 势 函 数 为 二 项 队列 集合 中 树 的 棵 数 。 初 始 的 位 势 为 0, 而 且 位 势 总 是 非 负 的 。 因 
此 , 经 过 一 系列 的 操作 之 后 , 总 的 挫 还 时 间 是 总 的 运行 时 间 的 一 个 上 界 。 

对 于 merge BE, 实际 时 间 为 常数 , 而 二 项 队列 的 集合 中 的 树 的 棵 数 是 不 变 的 , 因此 , 由 
方程 (11.2) 可 知 摊 还 时 间 为 0(1)。 

对 于 insert 操作 , 其 实际 时 间 是 常数 , 而 树 的 棵 数 最 多 增加 1, 因此 摊 还 时 间 为 0(1)。 

操作 deleteMin 比较 复杂 。 令 R 为 包含 最 小 元 素 的 树 的 秩 , 而 令 7 是 树 的 棵 数 。 于 是 ， 
{E deleteMin 操作 开始 时 的 位 势 为 T7。 为 执行 一 次 deleteMin, 最 小 节点 的 各 子 节点 被 分 离开 
而 成 为 一 棵 一 棵 的 树 。 这 就 产生 了 7+R 棵 树 , 这 些 树 必须 要 合并 成 一 个 标准 的 二 项 队列 。 如 果 
忽略 大 0 记 法 中 的 常数 , 那么 根据 上 面 的 论述 可 知 , 执行 该 操作 的 实际 时 间 为 T+R+logN ©, ^ 
一 方面 , 一 旦 做 完 这 些 , 剩 下 的 最 多 可 能 还 有 logN 棵 树 , 因此 位 势 函数 最 多 可 能 增加 (log N) — 
把 实际 时 间 和 位 势 的 变化 相 加 得 到 挫 还 时 间 界 为 2logN + Rs 由 于 所 有 的 树 都 是 二 项 树 ， T 
Rxlog N, iXff, 我 们 得 到 deleteMin 操作 的 摊 还 时 间 界 为 0(log N) 。 
11.4.3 辈 波 那 契 堆 操作 

如 前 所 述 , 斐 波 那 契 堆 将 左 式 堆 decreasekey 操作 与 懒惰 二 项 队列 merge 操作 结合 
来 。 不 过 , 我 们 不 能 不 做 任何 修改 而 使 用 这 两 种 操作 。 问 题 在 于 ， 如 果 在 这 些 二 项 树 中 进行 任 
意 切割 , 那么 结果 得 到 的 森林 将 不 再 是 二 项 树 的 集合 。 因 此 , 每 一 棵 树 的 秩 最 多 为 L log N 的 结 
论 将 不 再 成 立 。 由 于 在 懒惰 二 项 队列 中 deleteMin 的 挫 还 时 间 界 已 被 证 明 是 2log N+R, 因此 ， 
为 使 deleteMin 的 界 成 立 需要 使 R=0(log N) 。 

为 了 保证 R=0(log N) , 我们 对 所 有 的 非 根 节点 应 用 下 述 法 则 : 

e 将 第 一 次 ( 因为 切除 而 ) 失 去 一 个 儿子 的 ( 非 根 ) 节 点 作 上 标记 。 

e 如 果 被 标记 的 节点 又 失去 另外 一 个 儿子 节点 , 那么 将 它 从 其 父 节点 切除 。 这 个 节点 现在 

变 成 了 一 棵 分 离 的 树 的 根 并 且 不 再 被 标记 。 这 叫 作 一 次 级 联 切除 ( cascading cut) ， 因 为 
在 一 次 decreaseKey 操作 中 可 能 出 现 多 次 这 种 切除 。 

图 11-19 显示 在 decreaseKey 操作 之 前 斐 波 那 契 堆 中 的 一 棵 树 。 当 关键 字 为 39 的 节点 变 
成 12 时 , 堆 序 被 破坏 。 因 此 , 该 节点 从 它 的 父 节点 中 切除 , 变 成 了 一 棵 新 树 的 根 。 由 于 包含 33 
的 节点 被 标记 , 这 是 它 的 第 二 个 失去 的 子 节点 , 从 而 它 也 被 从 它 的 父 节 点 (10) 中 切除 。 现 在 ， 
10 也 失去 了 它 的 第 二 个 儿子 , 于 是 它 又 从 5 中 切除 。 这 个 过 程 到 这 里 结束 , 因为 5 是 未 作 标 记 
的 。 现 在 把 节点 5 作 上 标记 。 结 果 如 图 11-20 所 示 。 

注意 , 过 去 被 作 过 标记 的 节点 10 和 33 不 再 被 标记 , 因为 现在 它们 都 是 根 节点 。 这 对 于 我 
们 在 时 间 界 的 证 明 中 是 极其 重要 的 。 





图 11-19 39 减 成 12 之 前 斐 波 那 契 堆 中 的 一 棵 树 





C ”我们 能 够 这 么 做 ， 是 因为 我 们 可 以 把 大 0 记号 所 蕴涵 的 常数 放 在 位 势 函 数 中 并 仍 可 消去 这 些 项 ， 这 在 该 证 明 
中 是 需要 的 。 
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图 11-20 在 decreaseKey 操作 之 后 斐 波 那 契 堆 中 得 到 的 结果 


11.4.4 时 间 界 的 证 明 

注意 , 标记 节点 的 原因 是 我 们 需要 给 任 一 节点 的 秩 及 (儿子 的 个 数 ) 确定 一 个 界 。 现 在 证 明 
具有 六 个 后 裔 的 任意 节点 的 秩 为 0(log N) 。 

引 理 11.1 SX JESEDOIESORE PIE. e 为 X 的 第 i 个 最 年 轻 的 儿子 。 则 ci 的 
秩 至 少 是 i -2。 

WERA: 

在 c; 被 链接 到 X 上 时 , X CAA CRM) JL Fe, 6, 7s, cus 于 是 , 当 链 接 到 c; 时 X 至 
少 有 i-1 个 儿子 。 由 于 节点 只 有 当 它 们 有 相同 的 秩 的 时 候 才 链接 , 由 此 可 知 在 c; 被 链接 到 XX 上 

时 ci 至 少 也 有 ji -1 个 儿子 。 从 这 个 时 候 起 , 它 可 能 已 经 至 多 失去 一 个 儿子 , 否则 它 就 已 经 被 从 

XX 切除 。 因 此, c; 至 少 有 ;i -2 个 儿子 。 口 

从 引 理 11. 1 容易 证 明 , 秩 为 尺 的 任意 节点 必然 有 许多 的 后 裔 。 

引 理 11.2 $F, ÆHF 21, F 21, DAR F, =F, € F, ECCL 1.2 37) B SEQOR RR. 
POS Rz 的 任意 节点 至 少 有 Fi 个 后 诊 ( 包 括 它 自己 )。 

证 明 : 

令 Sp 是 秩 为 R pal 显然 , 5,=1 AS, =2。 根 据 引 理 11.1, PKA R 的 一 棵 树 必然 含有 
秩 至 少 为 R-2, R-3,…, 1， me 的 子 树 , 再 加 上 另 一 棵 至 少 有 一 个 节点 的 子 树 。 连 同 S. 的 根本 


身 一 起 , 这 就 给 出 S, =2+ È SSi) 的 一 一 个 最 小 值 。 容 易 证 明 , Sp = Fr,( 练 习 1.11a)。 O 


因为 众所周知 斐 波 那 契 数 是 以 指数 增长， 所 以 直接 推出 具有 s 个 后 裔 的 任意 节点 的 秩 最 多 
为 0(log s)。 于 是 , 我 们 有 

3111.3 斐 波 那 契 堆 中 任意 节点 的 秩 为 0(log N)。 

证 明 : 

直接 从 上 面 的 讨论 得 出 。 口 

假如 我 们 所 关心 的 只 是 merge、insert 以 及 deleteMin 等 操作 的 时 间 界 , 那么 我 们 现 
在 就 可 以 停止 并 证 明 所 要 的 挫 还 时 间 界 了 。 当 然 , 斐 波 那 契 堆 的 全 部 意义 在 于 还 要 得 到 一 个 
decreaseKey 的 0(1) 时 间 界 。 

对 于 一 次 decreaseKey 操作 所 需要 的 实际 时 间 是 1 加 上 在 该 操作 期 间 所 执行 的 级 联 切 除 
的 次 数 。 由 于 级 联 切 除 的 次 数 可 能 会 比 0(1) 多 很 多 , 为 此 我 们 需要 用 位 势 的 损失 来 作为 补偿 。 
从 图 11-20 我 们 看 到 , 树 的 棵 数 实际 上 是 随 着 每 次 级 联 切 除 而 增加 ,因此 我 们 必须 增强 位 势 函 
数 , 使 它 包含 某 种 在 级 联 切除 期 间 能 够 递减 的 成 分 。 注 意 , 我 们 不 能 从 位 势 函 数 中 抛 开 树 的 棵 
数 , 因为 这 样 就 不 能 够 证 明 merge 操作 的 时 间 界 了 。 再 次 观察 图 11-20 我 们 看 到 , 级 联 切除 引 
起 被 标记 的 节点 的 个 数 的 减少 , 因为 每 个 被 级 联 切 除 分 出 的 节点 都 变 成 了 未 标记 的 根 。 由 于 每 
个 级 联 切除 均 花 费 1 个 单元 的 实际 时 间 并 将 树 的 位 势 增加 1, 因此 我 们 将 每 个 标记 的 节点 算 作 2 
个 位 势 单 位 。 利 用 这 种 方法 , 我 们 就 获得 一 种 消除 级 联 切除 次 数 的 机 会 。 

定理 11.4 斐 波 那 契 堆 对 于 insert, merge 和 decreaseKey 的 挫 还 时 间 界 均 为 0(1)， 

[530] ”而 对 于 deleteMin 则 是 O(log N) 。 
证 明 : 
位 势 是 斐 波 那 契 堆 的 集合 中 树 的 棵 数 加 上 两 倍 的 标记 节点 数 。 像 通常 一 样 ,初始 的 位 势 为 
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0 并 且 总 是 非 负 的 。 于 是 , 经 过 一 系列 操作 之 后 , 总 的 摊 还 时 间 则 是 总 的 实际 时 间 的 一 个 上 界 。 

WF merge 操作 , 实际 时 间 为 常数 ,而 树 和 标记 节点 的 数目 是 不 变 的 , 因此 根据 方程 
(11.2) , 挫 还 时 间 为 0(1)。 

对 于 insert 操作 , 实际 时 间 是 常数 , 树 的 棵 数 增加 1, 而 标记 节点 的 个 数 不 变 。 因 此 , 位 
势 最 多 增加 1, 所 以 挫 还 时 间 也 是 0(1)。 

对 于 deleteMin 操作 , $ R 为 包含 最 小 元 素 的 树 的 秩 , 并 令 7 是 操作 前 树 的 棵 数 。 为 执 
行 一 次 deleteMin, 我 们 再 一 次 将 树 的 儿子 分 离 , 得 到 另外 R 棵 新 的 树 。 注 意 , 虽然 这 (通过 
使 它们 成 为 未 标记 的 根 ) 可 以 除去 一 些 标记 的 节点 , 但 却 不 能 创建 男 外 的 标记 节点 。 这 R 棵 新 
树 ， 和 其 余 了 棵 树 一 起 , 现在 必须 合并 , 根据 引 理 11.3 HERH T + R + logN = T + O(log N), 
由 于 最 多 可 能 有 O(log N) 棵 树 , 而 标记 节点 的 个 数 又 不 可 能 增加 ,= 因此 位 势 的 变化 最 多 是 0 
(log N) -7。 将 实际 时 间 和 位 势 的 变化 加 起 来 则 得 到 deleteMin 的 O(log NN) 挫 还 时 间 界 。 

最 后 考虑 decreaseKey 操作 。 令 C 为 级 联 切 除 的 次 数 。decreaseKey 的 实际 花费 为 
C+1, 它 是 所 执行 的 切除 的 总 数 。 第 一 次 ( 非 级 联 ) 切 除 创 建 一 棵 新 树 从 而 使 位 势 增 1。 每 次 级 
联 切 除 都 建立 一 棵 新 树 , 却 把 一 个 标记 节点 转变 成 未 标记 的 ( 根 ) 节 点 , 合计 每 次 级 联 切除 有 一 
个 单位 的 净 损 失 。 最 后 一 次 切除 也 可 能 把 一 个 未 标记 节点 (在 图 11-20 中 这 个 节点 为 5) 转 变 成 
标记 节点 , 这 就 使 得 位 势 增 加 2。 ne ee eee E 
起 来 则 得 到 总 和 为 4, 即 0(1)。 


11.5 伸展 树 


作为 最 后 一 个 例子 , 我 们 来 分 析 伸展 树 的 运行 时 间 。 由 第 4 章 得 知 , 在 对 某 项 X 进行 访问 
之 后 , 一 步 展 开通 过 下 述 三 种 一 系列 的 树 操 作 将 X 移 至 根 处 : 单 旋转 (zig)、 之 字形 (zig-zag) 旋 
转 和 一 字形 (zig-zig) 旋 转 。 树 的 这 些 旋 转 如 图 11-21 所 示 。 我 们 约定 : 如 果 在 节点 外 执行 一 次 
il E à C 是 它 的 祖父 节点 ( 若 开 不 是 根 的 儿子 ) 。 
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图 11-21 单 旋转 、 之 字形 和 一 字形 双 旋转 操作 ; 每 个 都 有 一 个 对 称 的 情形 (未 示 出 ) 


我 们 知道 ,对 节点 对 任意 的 树 操作 所 需 的 时 间 正 比 于 从 根 到 和 的 路 径 上 的 节点 的 个 数 。 如 
果 我 们 把 每 个 单 旋转 操作 计 为 一 次 旋转 , 把 每 个 之 字形 操作 或 一 字形 操作 计 为 两 次 旋转 , 那么 
任何 访问 的 花费 等 于 1 加 上 旋转 的 次 数 。 

为 了 证 明 展 开 操作 的 O(log N) 摊 还 时 间 界 , 我 们 需要 一 个 位 势 函数 , 该 函数 对 整个 展开 操 
作 最 多 能 够 增加 O(log N) 而 且 在 该 步 操 作 期 间 也 消去 所 执行 的 旋转 的 次 数 。 找 出 满足 这 些 原 
则 的 位 势 函数 根本 不 是 一 件 容易 的 事情 。 首 先 容易 猜 到 的 位 势 函 数 或 许 就 是 树 上 所 有 节点 的 深 
度 的 和 。 这 个 猜测 行 不 通 , 因为 位 势 在 一 次 访问 期 间 可 能 增加 OCN) 。 当 一 些 元 素 以 连贯 顺序 
插入 时 会 有 这 样 的 典型 例子 发 生 。 

一 个 确实 有 效 的 位 势 函数 b 定义 为 
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$(T) = 》 logS(i) 


其 中 SCOTI A PR fd IBS). 这 个 位 势 函 数 是 对 树 T 所 有 节点 i 所 取 的 5( 让 的 
对 数 和 。 

为 简化 记号 , 我 们 定义 

R(i) =logS(i) 
这 使 得 
(T) = Y RCG) 

R(U) (RAST, i fy Be Crank) 。 这 个 术语 类 似 于 在 不 相交 集 算 法 、 二 项 队列 和 斐 波 那 契 堆 的 分 析 
中 所 使 用 的 术语 。 在 所 有 这 些 数据 结构 中 , 秩 的 意义 多 少 有 些 不 同 , 不 过 , 秩 一 般 是 指 树 的 大 
小 的 对 数 的 阶 ( 幅度 一 一 magnitude) 。 对 于 具有 N 个 节点 的 一 棵 树 T, 根 的 秩 就 是 R(T) = logN。 
用 秩 的 和 作为 位 势 函 数 类 似 于 使 用 高 度 的 和 作为 位 势 函 数 。 重 要 的 差别 在 于 ， 当 一 次 旋转 可 以 
改变 树 中 许多 节点 的 高 度 时 , HRA X, 已 和 C 的 秩 发 生变 化 。 

在 证 明 主 要 的 定理 之 前 , 我 们 需要 下 列 的 引 理 。 

引 理 11.4 ”如果 a+b<c, Ha 和 45 均 为 正 整数 , 那么 


loga + logb <2loge -2 





WERA: 
根据 算术 - 几何 平均 不 等 式 ， 
Jab<(a+b)/2 
于 是 
Jab <c/2 
两 边 平方 得 到 
absc'/4 
两 边 再 取 对 数 则 定理 得 证 。 
我 们 现在 就 来 证 明 主 要 定理 , 证 明 过 程 中 要 注意 所 用 到 的 一 些 预 备 知识 。 1 


定理 11.5 在 节点 XX 展开 一 棵 根 为 7 的 树 的 挫 还 时 间 最 多 为 3(R(T) -R(X)) +1 2 0(log N), 

WERA: 

位 势 函 数 取 7 了 中 节点 的 秩 的 和 。 

AUR. X TRR, 那么 不 存在 旋转 , 因此 位 势 没有 变化 。 访 问 该 节点 的 时 间 是 1; 于 是 , Ae 
还 时 间 为 ;定理 成 立 因 此 , 我 们 可 以 假设 至 少 有 一 次 旋转 。 

对 于 任意 一 步 展 开 操作 , 令 R(X) A S (X) 是 在 这 步 操 作 前 X 的 秩 和 大 小 , 并 令 R(X) 和 
Sr(X) 是 在 这 步 展开 操作 后 工 的 秩 和 大 小 。 我 们 将 证 明 对 一 次 单 旋 转 所 需要 的 摊 还 时 间 最 多 为 
3(R(X) -R;(X)) +1， 而 对 一 次 之 字形 旋转 或 一 字形 旋转 的 摊 还 时 间 最 多 为 3(Rr(X) - 
R(X) ) ,我 们 将 证 明 ， 当 我 们 对 所 有 各 步 展 开 求 和 时 ,所 得 到 的 和 就 是 想 要 的 时 间 界 。 

一 步 单 旋转 : 对 于 单 旋转 ; 实际 时 间 为 1, 而 位 势 变 化 为 R(X) +R(P) -R(X)-R(P)。 
TER, 位 势 变化 容易 计算 ， 因 为 只 有 和 和 己 的 树 大 小 有 变化 。 于 是 ， 

47。=1+R(X) +R(P) -R(X) -R,(P) 
从 图 11-21 我 们 看 到 S,(P) =S(P); 因此 得 到 R,(P) 宇 Ri(P)。 这 样 ， 
AT,, <1 +R(X) -R(X) 
HT S(X) 25,(X) , FÆ R(X) - R(X) z0, 因此 我 们 可 以 增加 右边 , 得 到 
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AT <1 +3(R,(X) -R(X)) 
一 步 之 字形 旋转 : 对 于 这 种 情况 , 实际 的 花费 是 2, 而 位 势 变 化 为 R(X) +R (P) € ROG) - 
R(X) - RCP) -R(G)。 这 就 给 出 一 个 推 还 时 间 界 
AT, ing =2 +RAX) € R(P) * R(G) - R(X) =B(P)=B(6) 
从 图 11-21 我 们 看 到 , SX) 2S, C6), 于 是 它们 的 秩 必 然 相 等 。 因 此 我 们 得 到 
AT vig sag 72 + R(P) + RCE) - R(X) - RCP) 
我 们 还 看 到 SP) 25,00 。 因 而 R(X) <R,(P)。 代 入 右边 得 到 
AT, EZ FRAP) +R(G) -2R,(X) 
从 图 11-21 我 们 看 到 SCP) +5,(6) <S,(X) 。 如 果 应 用 引 理 11. 4, 那么 得 到 
logS,( P) +logS,( G) <2logS,(X) -2.. — 
由 秩 的 定义 可 知 , CER i 
R,(P) +R,(G) <2R,(X) -2 
我 们 将 其 代入 , 则 得 
AT sig sag S2R,(X) -2R,(X) <2( R(X) - R(X) ) 
BT R(X) SR(X), 因此 得 到 
AT sag S3(RÁX) - ROO) 
一 步 一 字形 旋转 : 第 三 种 情况 就 是 一 字形 旋转 。 这 种 情形 的 证 明 非 常 类 似 于 之 字形 的 情 
形 。 重 要 的 不 等 式 是 R(X) -R(G), R(X) SRP), R(X) SR(P), VR S(X) +5,(6) < 
Sr(X)。 我 们 把 具体 细节 留 作 练习 11.8。 
整个 展开 的 摊 还 花费 是 各 步 展 开 的 摊 还 花 
费 的 和 。 图 11-22 显示 在 节点 2 的 一 次 展开 中 
所 执行 的 各 步 展开 的 过 程 ; 令 尺 (2)、 尼 (2)、 
R,(2) 和 R,(2) 是 这 4 棵 树 每 棵 在 节点 2 的 秩 。 
第 一 步 是 之 字形 旋转 , 其 花费 最 多 为 3( R,(2) - 
及 (2) ) 。 第 二 步 是 一 字形 旋转 , 其 花费 为 3(R， 
(2) -R,(2))。 最 后 一 步 是 单 旋转 , 花费 不 超 
过 3(R (2) -R(2)) +1。 因 此 总 的 花费 是 
3 - RO) ) 15 图 11-22 在 节点 2 展开 中 涉及 的 展开 各 步 
一 般 地 , 通过 把 所 有 旋转 ( 其 中 最 多 有 一 个 旋转 可 能 是 一 次 单 旋转 ) 的 挫 还 时 间 加 起 来 , 我 
们 看 到 , 在 节点 X 展 开 的 总 的 挫 还 时 间 最 多 为 3(R(X) - R(X)) +1, 其 中 R,(X) 是 X 在 第 一 
步 展 开 前 的 秩 , 而 R(X) 是 在 最 后 一 步 展 开 后 的 秩 。 由 于 最 后 一 次 展开 把 留 在 根 处 , 因此 
我 们 得 到 3(RCT) -R(X) ) +1 的 摊 还 界 , 这 个 界 为 O(log N)。 E] 
因为 对 一 棵 伸展 树 的 每 一 次 操作 都 需要 一 次 展开 ， 因 此 任意 操作 的 摊 还 时 间 是 在 一 次 展开 
的 摊 还 时 间 的 一 个 常数 倍数 之 内 。 因 此 ， 所 有 伸展 树 操作 花费 0(log N) 挫 还 时 间 。 要 证 明 插入 
和 删除 花费 O(log N) 挫 还 时 间 ， 展 开 步 又 前 后 位 势 的 改变 必须 被 计算 在 内 。 
对 于 插入 来 说 ,假设 我 们 向 有 NN -1 个 结 点 的 树 中 插入 。 于 是 , 插入 之 后 我 们 得 到 一 棵 有 
N 个 结 点 的 树 ， 则 可 以 应 用 展开 的 界 。 然 而 ， 在 叶 结 点 的 插入 会 在 展开 之 前 对 从 叶 结 点 到 根 的 
路 径 上 的 每 个 结 点 增加 位 势 。 令 nl ，n,，…，n 为 插入 叶 结 点 (ni 是 根 ) 之 前 路 径 上 的 结 点 ， 并 
且 假 设 它们 的 大 小 为 引 ， S °°, So MAZE, AER s +1, sl, cn, s tls (UA 
对 位 势 的 贡献 为 0， 所 以 我 们 可 忽略 之 。) 注 意 到 (除了 根 结 点 外 )s;+1<s,,,， 所 以 nj 的 新 秩 不 
大 于 ,的 旧 秩 。 所 以 ， 由 增加 一 个 新 的 叶 结 点 导致 的 位 势 的 最 大 增长 ( 即 秩 的 增加 ) 是 被 根 的 
新 秩 所 限制 的 ， 即 O(log N)。 
删除 是 由 将 一 棵 树 接 到 另 一 棵 树 这 种 非 展开 步骤 组 成 的 。 这 样 做 的 确 令 一 个 结 点 的 秩 增加 
了 ， 但 那 是 被 og N 所 限制 的 (并 且 移 除了 一 个 根 结 点 也 是 一 种 补偿 ) 。 所 以 展开 的 花 销 精确 地 
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界定 了 删除 的 花 销 。 
通过 使 用 更 一 般 的 位 势 函 数 ， 能 够 证 明 伸展 树 具 有 若干 显著 的 性 质 。 更 多 的 细节 在 练习 中 讨论 。 


小 结 


我 们 在 这 一 章 看 到 捧 还 分 析 如 何 用 于 在 一 些 操作 间 分 配 负荷 。 为 了 进行 分 析 , 我 们 构造 一 
个 虚构 的 位 势 函数 , 这 个 位 势 函数 度量 系统 的 状态 。 高 位 势 的 数据 结构 是 易 变 的 , 它 建 立 在 相 
对 低廉 的 操作 之 上 。 当 昂贵 的 花费 来 自 一 次 操作 时 , 它 会 由 前 面 一 些 操 作 节 省 下 的 积蓄 来 支 
付 。 可 以 把 位 势 看 成 是 对 付 灾难 的 潜能 ,因为 非常 昂贵 的 操作 只 有 在 数据 结构 具有 一 个 高 位 势 
以 及 已 经 使 用 了 比 规定 的 显著 少 的 时 间 的 时 候 才 可 能 发 生 。 

数据 结构 中 的 低位 势 意 味 着 每 次 操作 的 花费 大 致 等 于 指定 给 它 的 消耗 量 。 负 位 势 意味 着 从 
债 ; 花费 的 时 间 多 于 规定 的 时 间 , 因此 分 配 (或 摊 还 ) 的 时 间 不 是 一 个 有 意义 的 界 。 

正如 方程 (11.2) 所 表达 的 , 一 次 操作 的 挫 还 时 间 等 于 实际 时 间 和 位 势 变化 的 和 。 整 个 操作 
序列 的 挫 还 时 间 等 于 总 的 序列 操作 时 间 加 上 位 势 的 净 变 化 。 只 要 这 个 净 变 化 是 正 的 , 那么 摊 还 
界 就 提供 实际 时 间 花 费 的 一 个 上 界 并 且 是 有 意义 的 。 

选择 位 势 函数 的 关键 在 于 保证 最 小 的 位 势 要 产生 在 算法 的 开始 , 并 使 得 位 势 对 低廉 的 操作 
增加 而 对 高 昂 的 操作 减少 。 重 要 的 是 过 剩 或 节省 的 时 间 要 由 位 势 中 相反 的 变化 来 度量 。 不 幸 的 
是 , 有 时 候 这 说 着 容易 做 起 来 难 。 


练习 


11.1 何 时 向 一 个 二 项 队列 进行 连续 M 次 插入 花费 少 于 2M 个 时 间 单 位 的 时 间 ? 
11.2 ” 设 有 一 个 N=2* -1 个 元 素 的 二 项 队列 。 交 蔡 进 行 M 对 insert 和 deleteMin 操作 。 显 然 , 每 
次 操作 花费 O(log N) 时 间 。 为 什么 这 与 插入 的 O(1) 摊 还 时 间 界 不 矛盾 ? 
"1.3 ”通过 给 出 一 系列 导致 一 次 merge 需要 O(N) 时 间 的 操作 , 证 明 对 于 课文 中 描述 的 斜 堆 操作 的 0 
(log 入) 挫 还 界 不 能 转换 成 最 坏 情 形 界 。 
4 ”指出 如 何 进行 一 趟 自 顶 向 下 地 合并 两 个 斜 堆 , 并 将 merge 的 开销 减 到 OO ) 摊 还 时 间 。 
5 ”扩展 斜 堆 以 支持 具有 O(log 和 N) 挫 还 时 间 的 decreaseKey 操作 。 
11.6 ”实现 辈 波 那 契 堆 ， 并 比较 其 与 二 又 堆 在 用 于 Dijkstra 算法 时 的 性 能 。 
7 ” 斐 波 那 契 堆 的 标准 实现 方法 需要 每 个 节点 4 个 链 ( 父 亲 、 儿 子 以 及 两 个 兄弟 ) 。 指 出 如 何 减少 链 
的 数量 而 最 多 花费 运行 时 间 的 一 个 常数 倍 。 
11.8 ”证 明 一 次 一 字形 展开 的 挫 还 时 间 最 多 为 3( R(X) -R(X))。 
11.9 ”通过 改变 位 势 函 数 能 够 证 明 展 开 操 作 的 不 同 的 界 。 令 权 函 数 ( weight function) WW( 让 为 指定 给 树 中 
每 个 节点 的 某 个 函数 , 令 5( 引 为 以 i 为 根 的 子 树 上 所 有 节点 (包括 节点 i 本 身 ) 的 权 的 和 。 对 于 
与 用 在 展开 界 的 证 明 中 的 函数 相对 应 的 所 有 的 节点 的 特殊 情况 为 W(i) 21. SN 为 树 中 节点 的 
个 数 , IFS M 为 访问 的 次 数 。 证 明 下 列 两 个 定理 ; 
a 总 的 访问 时 间 是 OQ(M+(M+N)log N) 。 
“b， 如 果 q; 为 项 i 被 访问 的 次 数 , 而 对 所 有 的 i, Ag, 20, 那么 总 的 访问 时 间 为 


o(w + Y aon Ig) | 


11.10 a. 指出 如 何 实现 对 伸展 树 的 merge 操作 使 得 从 六 个 单元 素 树 开始 的 任意 顺序 的 -1 XX merge 
操作 花费 0( Mog N) 时 间 。 
"b. 将 这 个 界 改 进 为 O(N log N). 

11. 11 我 们 在 第 5 章 描述 了 再 散 列 (rehashing) : 当 一 个 表 的 表 元 素 超过 容量 一 半 的 时 候 , 则 构造 一 个 两 
倍 大 的 新 表 ,， 且 整个 的 旧 表 要 被 再 散 列 。 使 用 位 势 函 数 给 出 一 个 正式 的 摊 还 分 析 来 证 明 一 次 搬 
和信 操作 的 摊 还 时 间 仍 为 O(1) 。 

11. 12” 斐 波 那 契 堆 的 最 大 深度 是 多 少 ? 

11.13 具有 堆 序 的 双 端 队列 (deque) 是 由 一 些 项 的 表 组 成 的 数据 结构 , 可 以 对 其 进行 下 列 操作 : 
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push( x): 将 项 x 插 人 到 双 端 队列 的 前 端 。 
pop( ) : 从 双 端 队列 中 除去 前 端 项 并 将 它 返 回 。 
inject(x) : 把 项 x 插入 到 双 端 队列 的 尾 端 。 
eject(): 从 双 端 队列 中 除去 尾 端 项 并 将 它 返 回 。 
findMin( ); 返回 双 端 队列 的 最 小 项 。 
a 描述 如 何以 每 次 操作 常数 扒 还 时 间 支 持 这 些 操作 。 
"tb. 描述 如 何以 每 次 操作 常数 最 坏 情 形 时 间 支 持 这 些 操作 。 
11.14 证 明 二 项 队列 实际 上 以 0(1) 挫 还 时 间 支 持 合并 操作 。 定 义 二 项 队列 的 位 势 为 树 的 棵 数 加 上 最 
大 的 树 的 秩 。 
11.15 假设 为 了 节省 时 间 , 我 们 把 展开 对 每 隔 一 次 树 操作 进行 。 摊 还 的 开销 还 是 对 数 的 吗 ? 
11.16 在 伸展 树 的 界 的 证 明 中 使 用 位 势 函 数 , 伸展 树 的 最 大 位 势 和 最 小 位 势 是 什么 ?在 一 次 展开 中 ， 
位 势 函数 可 以 减少 多 少 ? 在 一 次 展开 中 , 位 势 函 数 可 以 增加 多 少 ? 你 可 以 给 出 大 0 解答 。 
11.17 作为 展开 的 结果 , 在 访问 路 径 上 的 大 部 分 节点 都 朝 根 的 方向 移动 ,而 该 路 径 上 的 少数 几 个 节点 却 
向 下 移动 一 层 。 这 就 提出 使 用 一 个 和 作为 位 势 函 数 的 想法 , 该 和 对 所 有 节点 的 深度 的 对 数 进行 。 
a 该 位 势 函 数 的 最 大 值 是 多 少 ? 
b. 该 位 势 函 数 的 最 小 值 是 多 少 ? 
c. 问题 (a) 和 (b) 的 答案 的 差 给 出 某 种 提示 ， 即 该 位 势 函 数 不 是 太 好 。 证 明 : 一 次 展开 操作 可 能 
增加 位 势 @( N/logN) 。 
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本 章 讨论 7 种 重点 在 于 实用 性 的 数据 结构 。 首 先 考查 第 4 章 讨 论 过 的 AVL 树 的 一 些 变种 ， 
包括 优化 的 伸展 树 、 红 黑 树 、 跳 跃 表 的 确定 性 形式 (第 10 章 已 讨论 过 ) AA 树 以 及 treap 树 。 

然后 我 们 考查 一 种 可 以 用 于 多 维 数据 的 数据 结构 。 在 这 种 情况 下 , 每 一 项 均 可 有 多 个 关键 
Fo k-d 树 对 任何 关键 字 都 能 进行 相关 的 查找 。 

最 后 , 我 们 考查 配对 堆 (pairing heap), 它 似乎 是 斐 波 那 契 堆 最 实用 的 变种 -- 

复议 的 论题 包括 : 

e 在 适当 的 时 候 非 递归 地 自 顶 向 下 (而 不 是 自 底 向 上 ) 查 找 树 的 一 些 程序 实现 。 

e 一 些 详细 、 优化 的 尤其 是 利用 标记 节点 的 程序 实现 。 


12.1 自 项 向 下 伸展 树 


在 第 4 章 , 我 们 讨论 了 基本 的 伸展 树 操作 。 当 一 项 并 作为 树叶 被 插入 时 , 称 为 展开 ( splay ) 
的 一 系列 的 树 旋转 使 得 站 成 为 树 的 新 根 。 展 开 也 在 查找 期 间 执 行 , 而 且 如 果 一 项 没有 找到 , 那 
么 展开 就 要 对 访问 路 径 上 的 最 后 的 节点 实施 。 在 第 11 章 , 我 们 指出 一 次 展开 树 操作 的 摊 还 时 
间 为 O(log N)。 

这 种 方法 的 直接 实现 需要 从 根 沿 树 往 下 的 一 次 遍历 ， 以 及 而 后 的 从 底 向 上 的 一 一 次 遍历 来 实 
现 这 步 展开 操作 。 这 也 可 以 通过 保存 一 些 父 链 来 完成 , 还 可 以 通过 将 访问 路 径 存储 到 一 个 栈 中 
来 完成 。 但 遗憾 的 是 , 这 两 种 方法 均 需 大 量 的 系统 开销 , 而 且 二 者 都 必须 处 理 许多 特殊 的 情形 。 
在 这 一 节 , 我 们 指出 如 何在 初始 访问 路 径 上 施行 一 些 旋转 。 结 果 得 到 在 实践 中 更 快 的 过 程 ， 只 
用 到 0(1) 的 附加 空间 , 但 却 保持 了 O(log N) 的 摊 还 时 间 界 。 

图 12-1 列 出 了 单 旋转 、 一 字形 和 之 字形 的 旋转 。( 按照 惯 例 , 我 们 忽略 三 种 对 称 的 旋转 。) 
在 访问 的 任 一 时 刻 , 我 们 都 有 一 个 当前 节点 下 , 它 是 其 子 树 的 根 ; 在 我 们 的 图 中 它 被 表示 成 
“中 间 ” 树 “。 树 工 存储 在 树 7 中 但 不 在 X 的 子 树 中 的 小 于 2 的 节点 ; 类 似 地 , 树 尺 存储 在 树 7 
中 , 但 不 在 开 的 子 树 中 的 大 于 Z 的 节点 。 初 始 时 下 为 了 的 根 , m LA REER 


Ag A CAA A 
A 全 ai 
全 ac 全 一 公公 A 
AK 全 » 

X) 


A LN 
(2) 
Bs pe de, AK A 
AK RAS * 

Z BN JA 
图 12-1 自 顶 向 下 展开 旋转 : 单 旋转 、 一 字形 旋转 及 之 字形 旋转 


O 为 简单 起 见 , 我 们 不 区 分 节点 及 其 上 的 项 。 
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如 果 旋 转 是 一 次 单 旋转 , 那么 根 在 了 的 树 变 成 中 间 树 的 新 根 。X 和 子 树 B 作为 RR 中 最 小 项 
的 左 儿 子 而 附 接 到 尺 上 ; 逻辑 上 XX 的 左 儿 子 成 为 nu11 S, AR, XX 成 为 R 的 新 的 最 小 项 。 特 别 
要 注意 , 为 使 单 旋转 情形 适用 , 了 不 一 定 必须 是 一 片 树叶 。 如 果 我 们 查找 小 于 Y 的 项 , 而 了 没有 
左 儿 子 (但 确 有 一 个 右 儿子 ), 那么 这 种 单 旋转 情形 将 是 适用 的 。 

对 于 一 字形 情形 , 我 们 有 类 似 的 剖析 。 关 键 是 在 并 和 了 了 之 间 施 行 一 次 旋转 。 之 字形 情形 的 
旋转 把 底部 节点 Z 带 到 中 间 树 的 顶部 , 并 把 子 树 工 和 了 分 别 附 接 到 尺 和 三 上。 注意 , 了 被 附 接 
后 从 而 成 为 工 中 的 最 大 项 。 

之 字形 旋转 这 一 步 多 少 可 以 得 到 简化 , 因为 没有 旋转 要 执行 , 我们 不 再 让 2 成 为 中 间 树 的 
根 , 而 是 让 了 成 为 其 根 , 如 图 12-2 所 示 。 因 为 之 字形 情形 的 动作 变 成 与 单 旋转 情形 相同 , 所 以 
编程 得 到 简化 。 看 起 来 这 是 有 利 的 , 因为 对 大 量 情形 的 测试 是 要 费时 前 。 其 缺点 在 于 , 仅仅 为 
了 降低 一 层 , 在 展开 过 程 中 却 要 进行 更 多 的 迭代 。 


® (Y) 
Pu te S Tq 
AN AN 


图 12-2 简化 的 自 项 向 下 的 之 字形 旋转 


图 12-3 指出 一 旦 执行 完 最 后 一 步 展 开 , 我 们 将 如 何 处 理 L、R 和 中 间 树 以 形成 一 棵 树 。 特 
别 要 注意 , 这 里 的 结果 不 同 于 从 底部 向 上 的 展开 。 关 键 的 问题 在 于 它 保持 了 O(log N) 的 挫 还 界 


( 见 练习 12. 1)。 
Q) ®) 
全 AK 从 
J 2% 


图 12-3 自 项 向 下 展开 的 最 后 整理 


顶部 向 下 展开 算法 的 一 个 例子 如 图 12-4 所 示 。 我 们 想 要 访问 树 中 的 19。 第 一 步 是 一 个 之 
字形 旋转 。 根 据 图 12-2 的 对 称 形式 , 我 们 把 根 在 25 的 子 树 带 到 中 间 树 的 根 处 , 并 把 12 及 其 左 
子 树 附 接 到 二 上 。 

下 一 步 是 一 个 一 字形 旋转 : 15 被 提升 到 中 间 树 的 根 处 , 并 在 20 和 25 之 间 进 行 一 次 旋转 ， 
所 得 到 的 子 树 被 附 接 到 R 上 。 此 时 查找 19 导致 最 后 的 单 旋转 。 中 间 树 的 新 根 为 18, 而 15 及 其 
左 子 树 作为 上 最 大 节点 的 右 儿 子 被 附 接 到 工 上 。 根 据 图 12-3 重新 组 装 则 结束 该 步 展开 。 

我 们 将 使 用 带 有 左 链 和 右 链 的 一 个 头 (header) 最 终 引 用 左 树 的 根 和 右 树 的 根 。 由 于 这 两 棵 
树 初始 为 空 因此 使 用 一 个 头 分 别 对 应 初始 状态 右 树 或 左 树 的 最 小 或 最 大 节点 。 这 种 方法 可 以 
使 得 程序 避免 检测 空 树 。 第 一 次 左 树 变 成 非 空 时 , 右 链 将 被 初始 化 并 在 以 后 保持 不 变 ; 这 样 ， 
在 自 项 向 下 查找 的 最 后 它 将 包含 左 树 的 根 。 类 似 地 , 左 链 最 终 将 包含 右 树 的 根 。 

SplayTree 类 的 架构 如 图 12-5 所 示 , 它 包括 一 个 构造 方法 ， 用 来 分 配 nullNode 标记 。 
我 们 使 用 标记 nullNode 逻辑 上 表示 一 个 null 引用 。 我 们 将 反复 使 用 这 种 技术 来 简化 程序 
(因而 使 得 程序 多 少 要 快 一 些 )。 图 12-6 给 出 展开 过 程 的 程序 。 这 里 的 header 节点 使 我 们 肯 
EREHE X MHES R 的 最 大 节点 上 而 不 必 担 心 R 可 能 是 空 的 (对 于 处 理 L 的 对 称 的 情形 类 似 地 
进行 ) 。 


O 在 程序 中 RR 的 最 小 节点 没有 null 左 链 ， 因 为 没有 必要 。 这 意味 着 ，printTree(r) 将 包含 某 些 项 ， 这 些 
项 逻辑 上 不 在 R 中 
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简化 的 之 字形 旋转 ”| 





图 12-4 (访问 上 面 树 中 的 19) 自 项 向 下 展开 的 各 步 


public class SplayTree<AnyType extends Comparable<? super AnyType>> 
{ 
public SplayTree( ) 
{ 
nullNode = new BinaryNode<>( null ); 
nullNode.left = nullNode.right = nullNode; 
root = nullNode; 


} 


CmnN DU -& UNA 


~ 
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private BinaryNode<AnyType> splay( AnyType x, BinaryNode<AnyType> t ) 
{ /* Figure 12.6 */ } 

public void insert( AnyType x ) 
{ /* Figure 12.7 */ } 

public void remove( AnyType x ) 
{ /* Figure 12.8 «/ ) 


She & Re) jen 
OV UC -& CS ho — 





图 12-5 伸展 树 : 类 架构 
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public AnyType findMin( ) 
{ /* See online code «/ } 
public AnyType findMax( ) 
{ /* See online code «/ } 
public boolean contains( AnyType x ) 
{ /* See online code */ } 
public void makeEmpty( ) 
( root = nullNode; } 
public boolean isEmpty( ) 
( return root == nullNode; ) 


// Basic node stored in unbalanced binary search trees 


private static class BinaryNode<AnyType> 
{ /* Same as in Figure 4.16 */ } 


private BinaryNode<AnyType> root; 

private BinaryNode<AnyType> nullNode; 

private BinaryNode<AnyType> header = new BinaryNode<>( null ); // For splay 
private BinaryNode<AnyType> newNode = null; // Used between different inserts 


private BinaryNode<AnyType> rotateWithLeftChild( BinaryNode<AnyType> k2 ) 
{ /* See online code */ } 

private BinaryNode<AnyType> rotateWithRightChild( BinaryNode<AnyType> kl ) 
{ /* See online code */ } 





图 12-5 (4) 


Internal method to perform a top-down splay. 

The last accessed node becomes the new root. 

@param x the target item to splay around. 

@param t the root of the subtree to splay. 

@return the subtree after the splay. 
*/ 
private BinaryNode<AnyType> splay( AnyType x, BinaryNode<AnyType> t ) 
{ 


O0 4 DUA WH — 


BinaryNode<AnyType> leftTreeMax, rightTreeMin; 


header.left = header.right = nullNode; 
leftTreeMax = rightTreeMin = header; 


nullNode.element = x;  // Guarantee a match 
for( 5 5) 


if( x.compareTo( t.element ) « 0 ) 


{ 


if( x.compareTo( t.left.element ) < 0 ) 
t = rotateWithLeftChild( t ); 








图 12-6 自 项 向 下 展开 方法 
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} 





if( t.left == nullNode ) 
break; 

// Link Right 

rightTreeMin.left = t; 

rightTreeMin = t; 

t = t.left; 


else if( x.compareTo( t.element ) > 0 ) 


{ 


} 


if( x.compareTo( t.right.element ) > 0 ) 
t = rotateWithRightChild( t ); 

if( t.right == nullNode ) 
break; 

// Link Left 


leftTreeMax.right = t; 
leftTreeMax = t; 
t = t.right; 


else 


leftTreeMax.right 


break; 


t.left; 


rightTreeMin.left = t.right; 
t.left = header.right; 
t.right = header.left; 
return t; 





图 12-6 (9X) 


如 上 所 述 , 在 展开 到 最 后 的 重新 组 装 之 前 , header. left fll header. right 分 别 引 用 RR 
和 并 的 根 (这 不 是 一 个 排 印 错误 ， 而 是 遵守 链 的 指向 ) 。 除 了 这 个 细节 之 外 , 该 程序 是 相对 简 


单 的 。 


图 12-7 显示 将 一 项 插入 到 树 中 的 方法 。 一 个 新 的 节点 (如 果 需 要 ) 被 分 配 , 且 如 果树 是 空 
的 , 那么 就 建立 一 棵 单 节点 树 。 否 则 , 我 们 围绕 被 插入 的 值 x 展开 root 。 若 新 根 的 数据 等 于 *， 
则 有 一 个 重复 元 ; 我 们 不 是 再 次 插入 x, 而 是 为 将 来 的 插入 保留 newNode 并 立即 返回 。 如 果 新 
根 包 含有 大 于 x 的 值 , 那么 新 根 及 其 右 子 树 就 变 成 newNode 的 一 棵 右 子 树 , 而 root 的 左 子 树 
则 成 为 newNode 的 左 子 树 。 如 果 root 的 新 根 包 含有 小 于 x 的 值 , 那么 类 似 的 逻辑 仍然 适用 。 
在 这 两 种 情况 下 , newNode 均 成 为 新 的 根 。 


/** 
* Insert into the tree. 
* @param x the item to insert. 
*/ 
public void insert( AnyType x ) 
{ 
if( newNode == null ) 


1 
2 
3 
4 
5 
6 
7 
8 





newNode = new BinaryNode<>( null ); 


图 12-7 自 顶 向 下 伸展 树 的 insert 方法 
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newNode.element = x; 


if( root == nullNode ) 

{ 
newNode.left = newNode.right = nullNode; 
root = newNode; 

} 

else 


{ 


root = splay( x, root ); 
if( x.compareTo( root.element ) « 0 ) 


{ 


newNode.left = root.left; 
newNode.right = root; 
root.left = nullNode; 
root = newNode; 
} 
else 
if( x.compareTo( root.element ) > 0 ) 
{ 
newNode.right = root.right; 
newNode.left = root; 
root.right = nullNode; 
root = newNode; 
) 
else 
return;  // No duplicates 
) 


newNode = null;  // So next insert will call new 





图 12-7 (9€) 


在 第 4 章 , 我 们 指出 伸展 树 中 的 删除 是 容易 的 , 因为 一 次 展开 将 把 删除 目标 放 在 根 处 。 最 
后 我 们 列 出 图 12-8 中 的 删除 例 程 。 删 除 过 程 比 对 应 的 插入 过 程 还 要 短 , 确实 罕见 。 


/** 

* Remove from the tree. 

* @param x the item to remove. 
*/ 

public void remove( AnyType x ) 
{ 


BinaryNode<AnyType> newTree; 


CON DUA LUNS 


// If x is found, it will be at the root 


if( !contains( x ) ) 
return;  // Item not found; do nothing 





if( root.left -- nullNode ) 


图 12-8 自 顶 向 下 的 删除 过 程 
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newTree = root.right; 


16 else 

I7 { 

18 // Find the maximum in the left subtree 

19 // Splay it to the root; and then attach right child 
20 newTree = root.left; 

21 newlree = splay( x, newTree ); 

22 newTree.right = root.right; 

23 ] 


root = newTree; 


图 12-8 (£5) 


12.2 红 黑 树 


历史 上 AVL 树 流行 的 另 一 变种 是 红 黑 树 (red black tree) 。 对 红 黑 树 的 操作 在 最 坏 情形 下 花 
He O(log N) 时间, 而 且 我们 将 看 到 ，( 对 于 插入 操作 的 ) 一 种 审慎 的 非 递归 实现 可 以 相对 容易 地 
完成 (与 AVL 树 相 比 ) o 

红 黑 树 是 具有 下 列 着 色 性 质 的 三 又 查找 树 : 

L 每 一 个 节点 或 者 着 成 红色 , 或 者 着 成 黑色 。 

2. 根 是 黑色 的 。 

3， 如 果 一 个 节点 是 红色 的 , 那么 它 的 子 节点 必须 是 黑色 的 。 

4. 从 一 个 节点 到 一 个 null 引用 的 每 一 条 路 径 必须 包含 相同 数目 的 黑色 节点 。 

着 色 法 则 的 一 个 结论 是 , 红 黑 树 的 高 度 最 多 
是 2log(N+1)。 因 此 , 查找 操作 保证 是 一 种 对 数 
的 操作 。 图 12-9 显示 一 棵 红 黑 树 , 其 中 的 红色 节 
点 用 双 圆圈 表示 。 

和 通常 一 样 , 困难 在 于 将 一 个 新 项 插入 到 树 
中 。 通 常 把 新 项 作为 树叶 放 到 树 中 。 如 果 我 们 把 ”图 12-9” 红 黑 树 的 例子 (插入 序列 为 : 10， 
该 项 涂 成 黑色 , 那么 肯定 违反 条 件 4, 因为 将 会 建 te bg 
立 一 条 更 长 的 黑 节 点 的 路 径 。 因 此 , 这 一 项 必须 pe as 
涂 成 红色 。 如 果 它 的 父 节点 是 黑色 的 , 则 插入 完成 。 如 果 它 的 父 节点 已 经 是 红色 的 , 那么 得 到 
连续 红色 的 节点 , 这 就 违反 了 条 件 3。 在 这 种 情况 下 , 我 们 必须 调整 该 树 以 确保 满足 条 件 3 CH. 
又 不 引起 条 件 4 被 破坏 ) 。 用 于 完成 这 项 任务 的 基本 操作 是 颜色 的 改变 和 树 的 旋转 。 
12.2.1. 自 底 向 上 的 插入 l 

前 面 已 经 提 到 , 如 果 新 插入 的 项 的 父 节点 是 黑色 , 那么 插入 完成 。 因 此 , 将 25 插入 到 
图 12-9 的 树 中 是 简单 的 操作 。 

如 果 父 节点 是 红色 的 , 那么 有 几 种 情形 ( 每 种 都 有 一 个 镜像 对 称 ) 需 要 考虑 。 首 先 , 假设 这 
个 父 节 点 的 兄弟 是 黑色 的 (我 们 采纳 约定 : null 节点 都 是 黑色 的 ) 。 这 对 于 插入 3 或 8 是 适用 
的 , 但 对 插入 99 不 适用 。 令 是 新 添加 的 树叶 , P 是 它 的 父 节 点 ,5 是 该 父 节点 的 兄弟 ( 若 存 
TE), G 是 祖父 节点 。 在 这 种 情形 只 有 XX 和 P 是 红色 的 , C 是 黑色 的 ,否则 就 会 在 插入 前 有 两 个 
相连 的 红色 节点 ,违反 了 红 黑 树 的 法 则 。 采 用 伸展 树 的 术语 , X, P ALG 可 以 形成 一 个 一 字形 链 
或 之 字形 链 ( 两 个 方向 中 的 任 一 个 方向 ) 。 图 12-10 指出 当 P 是 一 个 左 儿子 时 (注意 有 一 个 对 称 
情形 ) 我 们 应 该 如 何 旋 转 该 树 。 即 使 X 是 一 片 树叶 , 我 们 还 是 画 出 较 一 般 的 情形 , 使 得 在 树 
的 中 间 。 后 面 我 们 将 用 到 这 个 较 一 般 的 旋转 。 
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图 12-10 如 果 5 是 黑色 的 , 则 单 旋转 和 之 字形 旋转 有 效 


第 一 种 情形 对 应 已 和 C 之 间 的 单 旋转 ,而 第 二 种 情形 对 应 双 旋 转 , 该 双 旋 转 首 先 在 X 和 P 
之 间 进 行 , Wate X MG 之 间 进 行 。 当 编写 程序 时 , 我 们 必须 记录 父 节 点 、 祖 父 节点 , 以 及 为 
了 重新 连接 还 要 记录 曾祖 节点 。 

在 这 两 种 情形 下 , 子 树 的 新 根 均 被 涂 成 黑色 , 因此 , 即使 原来 的 曾祖 是 红色 的 , 我 们 也 排除 
了 两 个 相 邻 红色 节点 的 可 能 性 。 同 样 重要 的 是 , 这 些 旋 转 的 结果 是 通 向 4, B 和 C 诸 路 径 上 的 
黑色 节点 个 数 保持 不 变 。 

到 现在 为 止 一 切 顺 利 。 但 是 , 正如 我 们 企图 将 79 插入 到 图 12-9 树 中 的 情况 一 样 , 如果 5 
是 红色 的 , 那么 会 发 生 什 么 情况 呢 ? 在 这 种 情况 下 , 初始 时 从 子 树 的 根 到 C 的 路 径 上 有 一 个 黑 
色 节 点 。 在 旋转 之 后 , 一 定 仍然 还 是 只 有 一 个 黑色 节点 。 但 在 这 两 种 情况 下 , 在 通 向 C 的 路 径 
上 都 有 三 个 节点 (新 的 根 , 6G 和 5)。 由 于 只 有 一 个 可 能 是 黑色 的 , 又 由 于 我 们 不 能 有 连续 的 红 
色 节 点 ,于 是 我 们 必须 把 S 和 子 树 的 新 根 都 涂 成 红色 , 而 把 G( 以 及 第 4 个 节点 ) 涂 成 黑色 。 这 
很 好 , 可 是 , 如 果 曾 祖 也 是 红色 的 那么 又 会 怎样 呢 ? 此 时 , 我 们 可 以 将 这 个 过 程 朝 着 根 的 方向 
上 滤 , 就 像 对 B 树 和 二 叉 堆 所 做 的 那样 , 直到 不 再 有 两 个 相连 的 红色 节点 或 者 到 达 根 ( 它 将 被 
重新 涂 成 黑色 ) 处 为 止 。 注 意 到 在 最 后 一 种 情况 下 ， 我们 可 以 简化 ， 因 为 不 带 旋 转 的 颜色 转换 
本 身 会 产生 等 价 的 行为 。 更 重要 的 是 ， 无 论 如 何 ， 我 们 都 还 是 得 向 着 根 进 行 上 滤 。 
12.2.2 自 顶 向 下 红 黑 树 

上 滤 的 实现 需要 用 一 个 栈 或 用 一 些 父 链 保存 路 径 。 我 们 看 到 , 如 果 使 用 一 个 自 顶 向 下 的 过 
f, 则 伸展 树 会 更 有 效 , 事实 上 我 们 可 以 对 红 黑 树 应 用 自 项 向 下 的 过 程 而 保证 $ 不 会 是 红色 的 。 

这 个 过 程 在 概念 上 是 容易 的 。 在 向 下 的 过 程 中 当 看 到 一 个 节点 有 两 个 红 儿 子 的 时 候 , 可 
使 XX 呈 红 色 而 让 它 的 两 个 儿子 是 黑 的 。( 如 果 X 是 根 , 则 在 颜色 翻转 后 它 将 是 红色 ， 但 是 为 恢 
复 性 质 2 可 以 直接 着 成 黑色 ) 图 12-11 显示 这 种 颜色 翻转 的 现象 , EU O4 X B 035 ex P EZ 
的 时 候 这 种 翻转 将 破坏 红 黑 的 法 则 。 但 是 此 时 可 以 应 用 图 12-10 中 适当 的 旋转 。 如 果 鲜 的 父 节 
点 的 兄弟 是 红色 会 如 何 呢 ? 这 种 可 能 已 经 被 从 项 向 下 过 程 中 的 行动 所 排除 , 因此 的 父 节 点 的 
兄弟 不 可 能 是 红色 ! 特别 地 ,如 果 在 沿 树 向 下 的 过 程 中 我 们 看 到 一 个 节点 Y 有 两 个 红 儿 子 , 那 
么 我 们 知道 了 的 孙子 必然 是 黑 的 , 由 于 了 的 儿子 也 要 变 成 黑 的 , 甚至 在 可 能 发 生 的 旋转 之 后 ， 
因此 我 们 将 不 会 看 到 两 层 上 另外 的 红 节 点 。 这 样 ， 当 我 们 看 到 X, 车 XX 的 父 节点 是 红 的 , Wu X 
的 父 节点 的 兄弟 不 可 能 也 是 红色 的 。 

例如 , 假设 要 将 45 插入 到 图 12-9 中 的 树 上 。 在 沿 树 向 下 的 过 程 中 , 我 们 看 到 50 有 两 个 
红 儿 子 。 因 此 , 我 们 执行 一 次 颜色 翻转 , 使 50 为 红 的 , 40 ASS 是 黑 的 。 现 在 50 和 60 都 是 
红 的 。 在 60 和 70 之 间 执 行 单 旋 转 , 使 得 60 是 30 的 右 子 树 的 黑 根 , 而 70 和 50 都 是 红 的 。 
如 果 我 们 在 路 径 上 看 到 另外 的 含有 两 个 红 儿 子 的 节点 , 那么 我 们 继续 执行 同样 的 操作 。 当 我 们 
到 达 树 叶 时 , 把 45 作为 红 节点 插入 , 由 于 父 节 点 是 黑 的 , 因此 插入 完成 。 最 后 得 到 如 图 12-12 
所 示 的 树 。 
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12-11 颜色 翻转 : 只 有 当 马 的 父 节 点 是 红 图 12-12 $ 45 插入 到 图 12-9 中 


的 时 候 我 们 才能 继续 旋转 


如 图 12-12 所 示 , 所 得 到 的 红 黑 树 常常 平衡 得 很 好 。 经 验 指出 , 平均 红 黑 树 大 约 和 平均 
AVL 树 一 样 深 , 从 而 查找 时 间 一 般 接近 最 优 。 红 黑 树 的 优点 是 执行 插入 所 需要 的 开销 相对 较 
低 , 另外 就 是 实践 中 发 生 的 旋转 相对 较 少 。 

红 黑 树 的 具体 实现 是 很 复杂 的 , 这 不 仅 因 为 有 大 量 可 能 的 旋转 , 而 且 还 因为 一 些 子 树 可 能 
是 空 的 (如 10 的 右 子 树 ), 以 及 处 理 根 的 特殊 的 情况 (尤其 是 根 没 有 父亲 )。 因 此 , 我 们 使 用 两 
个 标记 节点 : 一 个 是 根 , 一 个 是 nullNode, 它 的 作用 像 在 伸展 树 中 那样 指示 一 个 null 引用 。 
根 标记 将 存储 关键 字 - % 和 一 个 指向 真正 的 根 的 右 链 。 为 此 ,查找 和 输出 过 程 均 需 要 调整 。 递 
归 的 例 程 都 很 巧妙 。 图 12-13 指出 如 何 重新 编写 中 序 遍 历 。 


/** 
* Print the tree contents in sorted order. 
*/ 
public void printTree( ) 
{ 
if( isEmpty( ) ) 
System.out.println( "Empty tree" ); 
else 
printTree( header.right ); 


ON DU AW DH — 


| ** ^ 
* Internal method to print a subtree in sorted order. 
* (param t the node that roots the subtree. 
*/ 

private void printTree( RedBlackNode<AnyType> t ) 

{ 


if( t != nullNode ) 
{ 
printTree( t.left ); 
~ System.out.println( t.element ); 
printTree( t.right ); 
} 





图 12-13 树 的 中 序 遍历 以 及 两 个 警戒 标记 


图 12-14 显示 RedBlackTree 架构 (省 去 了 其 中 的 一 些 成 员 方 法 ) 以 及 构造 方法 。 接 着 ， 
图 12-15 显 示 执 行 一 次 单 旋转 的 例 程 。 因 为 所 得 到 的 树 必 须要 附 接 到 一 个 父 节 点 上 ,所 以 
rotate 把 父 节点 作为 一 个 参数 。 我 们 把 item 作为 一 个 参数 传递 而 不 是 在 沿 树 下 行 时 记录 旋 
转 的 类 型 。 由 于 期 望 在 插入 过 程 中 进行 很 少 的 旋转 , 因此 使 用 这 种 方式 实际 上 不 仅 更 简单 ,而 
且 还 更 快 。rotate 直接 返回 执行 一 次 适当 的 单 旋转 的 结果 。 
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public class RedBlackTree<AnyType extends Comparable<? super AnyType>> 


/** 

* Construct the tree. 

*/ 

public RedBlackTree( ) 

{ 
nullNode = new RedBlackNode<>( null ); 
nullNode.left = nullNode.right = nullNode; 
header = new RedBlackNode<>( null ); 
header.left = header.right = nullNode; 


private static class RedBlackNode<AnyType> 
{ 
// Constructors 
RedBlackNode( AnyType theElement ) 
{ this( theElement, null, null ); } 


RedBlackNode( AnyType theElement, RedBlackNode<AnyType> lt, RedBlackNode<AnyType>rt ) 
{ element = theElement; left = lt; right = rt; color = RedBlackTree.BLACK; ) 


AnyType element; // The data in the node 
RedBlackNode<AnyType> left; // Left child 
RedBlackNode<AnyType> right; // Right child 

int color; // Color 


private RedBlackNode<AnyType> header; 
private RedBlackNode<AnyType> nullNode; 


private static final int BLACK $ // BLACK must be 1 
private static final int RED $ 





图 12-14 类 架构 和 初始 化 例 程 


Internal routine that performs a single or double rotation. 

Because the result is attached to the parent, there are four cases. 

Called by handleReorient. 

@param item the item in handleReorient. 

@param parent the parent of the root of the rotated subtree. 

@return the root of the rotated subtree. 
*/ 
private RedBlackNode<AnyType> rotate( AnyType item, RedBlackNode<AnyType> parent ) 
{ 


if( compare( item, parent ) < 0 ) 
return parent.left = compare( item, parent.left ) < 0 ? 





K| 12-15 rotate 方法 
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rotateWithLeftChild( parent.left ) : // LL 
rotateWithRightChild( parent.left ) ; // LR 


else 
return parent.right = compare( item, parent.right ) < 0 ? 
rotateWithLeftChild( parent.right ) : // RL 
rotateWithRightChild( parent.right ); // RR 


Compare item and t.element, using compareTo, with 
caveat that if t is header, then item is always larger. 
This routine is called if it is possible that t is header. 
If it is not possible for t to be header, use compareTo directly. 
*/ 
private final int compare( AnyType item, RedBlackNode<AnyType> t ) 
{ 
if( t == header ) 
return 1; 
else 
return item.compareTo( t.element )s 





图 12-15 (5) 


最 后 ,我们 在 图 12-16 中 给 出 插入 过 程 。 例 程 handleReorient 当 我 们 遇 到 带 有 两 个 红 
儿子 的 节点 时 被 调用 , 在 我 们 插入 一 片 树叶 时 它 也 被 调用 。 最 为 复杂 的 部 分 是 , 一 个 双 旋 转 实 
际 上 是 两 个 单 旋 转 , 而 且 只 有 当 通 向 X 的 分 支 ( 在 insert 方法 中 由 current 表示 ) 取 相反 方 
向 时 才 进 行 。 正 如 我 们 在 较 早 的 讨论 中 提 到 的 ， 当 沿 树 向 下 进行 的 时 候 ，insert 必须 记录 父 
AR. 祖父 和 曾祖 。 由 于 这 些 量 要 由 handleReorient 共享 , 因此 让 它们 是 类 成 员 。 注 意 , 在 一 
次 旋转 之 后 , 存储 在 祖父 和 曾祖 节点 中 的 值 将 不 再 正确 。 不 过 , 肯定 到 下 一 次 再 需要 它们 的 时 
候 它 们 将 被 修复 。 


// Used in insert routine and its helpers 


private RedBlackNode<AnyType> 
private RedBlackNode<AnyType> 
private RedBlackNode<AnyType> 
private RedBlackNode<AnyType> 


[** 


© CON DU AUNES 


= 
e 


* @param item the item being 


«f 


= = = 
U N= 


{ 


= 
A 


// Do the color flip 
current.color = RED; 
current.left.color = BLACK; 
current.right.color = BLACK; 


= € n 
NOU 


current; 
parent; 
grand; 
great; 


* Internal routine that is called during an insertion 
* if a node has two red children. Performs flip and rotations. 


inserted. 


private void handleReorient( AnyType item ) 


图 12-16 插入 过 程 
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19 if( parent.color == RED ) // Have to rotate 
20 { 
21 grand.color = RED; 
22 if( ( compare( item, grand ) < 0 ) != 
23 ( compare( item, parent ) < 0) ) 
24 parent = rotate( item, grand ); // Start dbl rotate 
25 current - rotate( item, great ); 
26 current.color = BLACK; 
27 } 
28 header.right.color = BLACK; // Make root black 7 
29 } - Ca 
30 
31 /** 
32 * Insert into the tree. 
33 * (param item the item to insert. 
34 x/ 
35 public void insert( AnyType item ) 
36 ( 
37 current = parent = grand = header; 
38 nullNode.element - item; 
39 
40 while( compare( item, current ) != 0 ) 
41 { 
42 great = grand; grand = parent; parent = current; 
43 current = compare( item, current ) < 0 ? current.left : current.right; 
44 
45 // Check if two red children; fix if so 
46 if( current.left.color == RED && current.right.color == RED ) 
47 handleReorient( item ); 
48 } 
49 
50 // Insertion fails if already present 
51 if( current != nullNode ) 
52 return; 
53 current = new RedBlackNode<>( item, nullNode, nullNode ); 
54 
55 // Attach to parent 
56 if( compare( item, parent ) « 0 ) 
57 parent.left = current; 
58 else 
59 parent.right = current; 
60 handleReorient( item ); 
图 12-16 (£x) 


12.2.3 自 项 向 下 的 删除 

红 黑 树 中 的 删除 也 可 以 自 项 向 下 进行 。 每 一 件 工作 都 归结 于 能 够 删除 树叶 。 这 是 因为 , 要 
删除 一 个 带 有 两 个 儿子 的 节点 , 用 右 子 树 上 的 最 小 节点 代替 它 ; 该 节点 必然 最 多 有 一 个 儿子 ， 
然后 将 该 节点 删除 。 只 有 一 个 右 儿子 的 节点 可 以 用 相同 的 方式 删除 , 而 只 有 一 个 左 儿子 的 节点 
通过 用 其 左 子 树 上 最 大 节点 蔡 换 而 被 删除 , 然后 再 将 该 节点 删除 。 注 意 , 对 于 红 黑 树 , 我 们 不 
要 使 用 绕 过 带 有 一 个 儿子 的 节点 的 情形 的 方法 , 因为 这 可 能 在 树 的 中 部 连接 两 个 红色 节点 , 增 
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加 红 黑 条 件 实现 的 困难 。 

当然 , 红色 树叶 的 删除 很 简单 。 然 而 , 如 果 一 片 树叶 是 黑 的 , 那么 删除 操作 会 复杂 得 多 , 因 
为 黑色 节点 的 删除 将 破坏 条 件 4。 解 决 方法 是 保证 从 上 到 下 删除 期 间 树 叶 是 红 的 。 

在 整个 讨论 中 , Xm. 了 是 它 的 兄弟 , 而 P 是 它们 的 父亲 。 开 始 时 我 们 把 树 的 
根 涂 成 红色 。 当 沿 树 向 下 遍历 时 , 我 们 设法 保证 X 是 红色 的 。 当 到 达 一 个 新 的 节点 时 , 我 们 要 
确信 PP 是 红 的 (归纳 地 , 我 们 试图 继续 保持 这 种 不 变性 ) 并 且 X 和 了 是 黑 的 (因为 不 能 有 两 个 相 
连 的 红色 节点 ) 。 这 存在 两 种 主要 的 情形 。 

首先 , WX AAT RULE. UNA =A aL, 如 图 12-17 所 示 。 如 果 了 也 有 两 个 黑 儿 子 ， 
那么 可 以 翻转 X、7 和 P 的 颜色 来 保持 这 种 不 变性 。 否 则 ,7 的 儿子 之 一 是 红 的 。 根 据 这 个 儿子 
节点 是 哪 一 个 , 我 们 可 以 应 用 图 12-17 所 示 的 第 二 和 第 三 种 情形 表示 的 旋转 。 特 别 要 注意 , 这 
种 情形 对 于 树叶 将 是 适用 的 , 因为 nullNode 被 认为 是 黑 的 。 





图 12-17 当 X 是 一 个 左 儿子 并 有 两 个 黑 儿 子 时 的 三 种 情形 


其 次 , X 的 儿子 之 一 是 红 的 。 在 这 种 情形 下 , 我 们 落 到 下 一 层 上 , FERIIS X. T 和 P。 如 
REZ, X 落 在 红 儿 子 上 , 则 我 们 可 以 继续 向 前 进行 。 如 果 不 是 这 样 ,那么 我 们 知道 了 将 是 红 
AY, 而 X 和 PP 将 是 黑 的 。 我 们 可 以 旋转 7 和 P, 使 得 X 的 新 父亲 是 红 的 ; 当然 XxX 及 其 祖父 将 是 
黑 的 。' 此 时 我 们 可 以 回 到 第 一 种 主 情况 。 


12.3 treap f 


最 后 一 种 二 又 查找 树 可 能 是 最 简单 的 一 种 , 叫 作 treap 树 。 它 像 跳 跃 表 一 样 使 用 随机 数 并 且 
对 任意 的 输入 都 能 给 出 O(log NW) 期 望 时 间 的 性 能 。 查 找 时 间 等 同 于 非 平衡 二 又 查找 树 ( 从 而 比 
平衡 查找 树 要 慢 ) ,而 插入 时 间 只 比 递归 非 平 衡 二 又 查找 树 的 实现 方法 稍 慢 。 虽 然 删 除 操作 要 
慢 得 多 , 但 仍然 是 O(log N) 期 望 时 间 。 

treap 树 是 如 此 地 简单 ,以 至 我 们 不 用 画图 就 可 描述 它 。 树 中 的 每 个 节点 存储 一 项 , 一 个 左 
和 右 链 , 以 及 一 个 优先 级 , 该 优先 级 是 建立 节点 时 随机 指定 的 。 一 个 treap rr 
树 , 但 其 节点 优先 级 满足 堆 序 性 质 : 任意 节点 的 优先 级 必须 至 少 和 它 父 节点 的 优先 级 一 样 大 。 

其 每 一 项 都 有 不 同 优先 级 的 不 同 项 的 集合 只 能 由 一 棵 treap 树 表 示 。 这 很 容易 由 归纳 法 推 
F, 因为 具有 最 低 优先 级 的 节点 必然 是 根 。 因 此 , 树 是 根据 优先 级 的 N! 种 可 能 的 排列 而 不 是 
根据 项 的 NT 种 排序 形成 的 。 节 点 的 声明 很 简单 ,只 要 求 添加 priority 域 , 如 图 12-18 所 示 。 





O ”如果 两 个 儿子 都 是 红 的 ， 那 么 我 们 可 以 应 用 两 种 旋转 中 的 任 一 种 。 通 常 ， 在 X 是 一 个 右 儿 子 的 情形 下 存在 
对 称 的 旋转 。 
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标记 nullNode 的 优先 级 为 。 随 机 优先 级 由 一 个 共享 的 Random 类 的 对 象 生成 。 


private static class TreapNode<AnyType> 


{ 


1 
2 
3 // Constructors 

4 TreapNode( AnyType theElement ) 

5 ( this( theElement, null, null ); } 
6 
7 
8 


TreapNode( AnyType theElement, TreapNode<AnyType> lt, TreapNode<AnyType> rt ) 
( element = theElement; left = 1t; right = rt; priority = randomObj.randomInt( ); ) 


AnyType element; // The data in the node 
TreapNode<AnyType> left; // Left child 
TreapNode<AnyType> right; // Right child 

int priority; // Priority 


private static Random randomObj = new Random( ); 


图 12-18 .treap 树 的 节点 声明 


到 treap 树 的 插入 操作 也 简单 : 在 一 项 作为 树叶 加 入 之 后 , 我 们 将 它 沿 着 该 treap 树 向 上 旋 
转 直到 它 的 优先 级 满足 堆 序 为 止 。 可 以 证 明 旋 转 的 期 望 次 数 小 于 2。 在 找到 要 被 删除 的 项 以 
后 , 通过 把 它 的 优先 级 增加 到 = 并 沿 着 低 优先 级 诸 儿 子 的 路 径 向 下 旋转 而 可 将 其 删除 。 一 旦 它 
成 为 树叶 , 就 可 以 把 它 除 去 。 图 12-19 和 图 12-20 中 的 例 程 利用 递归 实现 这 些 方法 。 一 种 非 递 
归 的 实现 方法 留 给 读者 练习 ( 见 练习 12. 11)。 对 于 删除 , 注意 当 节 点 逻辑 上 是 树叶 时 , 它 仍然 
有 nullNode 作为 它 的 左 儿 子 和 右 儿 子 。 因 此 , 它 与 右 儿子 旋转 , 在 旋转 后 ,上 为 nullNode, 
而 左 儿 子 存储 要 被 删除 的 项 。 因 此 我 们 将 C. left 改变 成 引用 nullNode 标记 。 还 要 注意 我 们 
的 实现 是 假设 没有 重复 元 ; 如 果 这 个 假设 不 成 立 , 那么 remove 可 能 失败 (为 什么 ?)。 
j: Internal method to insert into a subtree. 
* @param x the item to insert. 
* (param t the node that roots the subtree. 
* @return the new root of the subtree. 
s m TreapNode<AnyType> insert( AnyType x, TreapNode<AnyType> t ) 
{ 
if( t == nullNode ) 
return new TreapNode<>( x, nullNode, nullNode ); 
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int compareResult = x.compareTo( t.element ); 


if( compareResult « 0 ) 


{ 


t.left = insert( x, t.left ); 
if( t.left.priority < t.priority ) 
t = rotateWithLeftChild( t ); 
} 
else if( compareResult > 0 ) 


{ 





图 12-19 treap 树 : 插入 例 程 
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t.right = insert( x, t.right ); 
if( t.right.priority « t.priority ) 
t - rotateWithRightChild( t ); 
} 
// Otherwise, it's a duplicate; do nothing 


return t; 











图 12-19 (5) 
1 [** 
2 * Internal method to remove from a subtree. 
3 * @param x the item to remove. 
4 * Gparam t the node that roots the subtree. 
3 * @return the new root of the subtree. 
6 x/ 
7 private TreapNode<AnyType> remove( AnyType x, TreapNode<AnyType> t ) 
8 { 
9 if( t != nullNode ) 
10 { 
11 int compareResult = x.compareTo( t.element ); 
12 
13 if( compareResult < 0 ) 
14 t.left = remove( x, t.left ); 
15 else if( compareResult > 0 ) 
16 t.right = remove( x, t.right ); 
17 else 
18 { 
19 // Match found 
20 if( t.left.priority < t.right.priority ) 
21 t = rotateWithLeftChild( t ); 
22 else 
23 t = rotateWithRightChild( t ); 
24 
25 if( t != nullNode ) // Continue on down 
26 t = remve( x, t ); 
27 else 
28 t.left = nullNode; // At a leaf 
29 —] i 
30 } 
31 return t; 
32 } 





图 12-20 treap 树 : 删除 过 程 


treap 树 特别 容易 实现 是 因为 我 们 绝对 不 必 担 心 调整 优先 级 域 。 平 衡 树 处 理 方法 的 困难 之 
一 是 追查 由 于 未 能 更 新 一 次 操作 过 程 中 的 信息 而 导致 的 错误 。 从 合理 的 插入 和 删除 包 的 全 部 程 
序 行 来 看 , treap E, 特别 是 非 递 归 的 实现 , 似乎 才 是 不 费力 的 赢家 。 


12.4 后缀 数组 与 后 缀 树 
数据 处 理 中 最 基础 的 问题 之 一 是 从 文本 7 中 找到 一 段 模式 P 所 在 的 位 置 。 例 如 ,我 们 可 能 
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有 兴趣 回答 如 下 问题 : 

e 存在 能 匹配 己 的 了 的 子 串 吗 ? 

e 忆 在 了 中 出 现 了 多 少 次 ? 

e 忆 在 7 中 出 现 的 所 有 位 置 都 在 哪些 地 方 ? 

假设 P 的 规模 比 7 小 (通常 是 小 得 多 ) ， 于 是 对 于 给 定 的 P 和 7T， 我们 可 以 合理 地 期 望 解决 
这 个 问题 的 时 间 至 少 关于 7 的 长 度 是 线性 的 ， 事实 上 也 的 确 有 若干 个 0( | 了 | ) 的 算法 。 

然而 ,我们 会 对 一 个 更 加 一 般 的 问题 感 兴趣 ， 在 这 个 问题 中 ,7 是 固定 的 ， 而 针对 不 同 的 
P 有 频繁 的 查询 请 求 。 例 如 ,7 可 以 是 一 个 巨大 的 邮件 信息 存档 ， 而 我 们 有 兴趣 对 不 同 的 模式 
重复 地 查找 邮件 信息 。 在 这 种 情况 下 ， 我 们 会 将 7 预 处 理 成 一 种 比较 好 的 形式 ， 使 得 每 次 独立 
查询 的 效率 更 高 ， 所 用 时 间 显 著 小 于 了 的 规模 的 线性 时 间 一 一 或 者 是 了 的 规模 的 对 数 时 间 ( 或 
更 好 ) ， 其 与 7 无 关 而 仅 依 赖 于 P 的 长 度 。 

有 一 种 这 样 的 数据 结构 叫 后 组 数组 和 后 组 树 ( 听 上 去 好 像 是 两 种 数据 结构 ， 但 是 我 们 将 看 
到 它们 基本 上 是 等 价 的 ， 是 用 空间 换 时 间 )。 

12.4.1 后 级 数组 

关于 一 段 文 本 7 的 后 级 数组 其 实 就 是 7 的 所 有 后 级 有 序 排列 所 组 成 的 一 个 数组 。 例 如 ， 设 
我 们 的 文本 字符 串 是 banana， 则 banana 的 后 级 数 组 如 图 12-21 所 示 。 

一 个 直接 存储 了 后 缀 的 后 级 数组 看 上 去 需要 平方 级 的 空间 ， 因 
为 它 对 从 1 到 N( 其 中 NN 是 7 的 长 度 ) 的 每 个 长 度 都 存 了 一 个 字符 串 。 
{E Java 中 并 不 一 定 如 此 ， 因 为 Java 字符 串 是 用 维护 一 个 字符 数组 以 
及 一 个 开头 和 结尾 的 索引 来 实现 的 。 这 意味 着 当 通过 一 个 对 
substring 的 调用 创建 一 个 String 时 ， 同 一 个 字符 数组 是 被 共享 
的 ， 额 外 的 内 存 需求 只 是 那个 新 子 串 的 开头 和 结尾 的 索引 。 无 论 如 
何 ， 即 便 如 此 也 用 了 太 多 的 空间 : 后 缀 数组 是 为 文本 而 建 的 ,不 是 图 12-21 “banana” WJA 
为 了 模式 ， 而 文本 可 能 非常 巨大 。 于 是 一 种 实际 的 实现 方法 通常 是 
只 存 后 缀 在 后 缀 数组 中 的 起 始 下 标 ， 而 不 是 整个 子 串 。 图 12-22 展示 了 存储 的 下 标 。 

后 缀 数组 本 身 是 非常 强大 的 。 例 如 ， 如 果 某 个 模式 PP 出 现在 文本 中 ， 则 它 必定 是 某 个 后 级 
的 前 级 。 对 后 缀 数组 做 折 半 查找 就 足以 确定 模式 P 是 否 在 文本 中 : 折 半 查找 或 者 停 在 已 上 ,或 
者 P 处 于 两 个 值 之 间 , 一 个 比 P 小 , 一 个 比 P 大 。 如 果 P 是 某 个 子 串 的 前 级 ， 那 么 它 就 是 折 
半 查 找 结束 时 找到 的 那个 更 大 值 的 前 级 。 这 立刻 将 查询 时 间 降 到 了 0( |P |log |7|), 其 中 
log | 7 | 是 折 半 查找 造成 的 ，|P | 是 每 步 比较 的 开销 。 

我 们 还 可 以 利用 后 绎 数组 找到 P 的 出 现 次 数 ， 它们 会 被 顺序 存储 在 后 组 数组 中 ， 于 是 两 次 
折 半 查找 后 级 可 以 找到 保证 从 PP 开始 的 后 缀 的 区 间 。 加 速 这 种 查找 的 一 个 方法 是 ， 对 每 一 对 连 
续 排放 的 子 串 计 算 最 长 公共 前 组 (Longest Common Prefix, LCP); 如 果 在 建立 后 缀 数组 的 同时 完 
成 这 个 计算 ， 则 每 次 找 P 的 出 现 次 数 就 可 以 加 速 到 OC |P| +log|T|), 尽管 这 并 不 显然 。 
图 12-23 给 出 了 对 每 个 子 串 计算 的 相对 于 前 一 子 串 的 LCP。 
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图 12-22 仪 存 了 下 标的 后 缀 数组 (完整 的 图 12-23 “banana” 的 后 缀 数组 ,包括 最 长 公 
子 串 展 示 仅 供 参 考 ) 共 前 级 (LCP) 
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最 长 公共 前 级 还 提供 了 关于 在 文本 中 出 现 了 两 次 的 最 长 模式 的 信息 : 找到 LCP 的 最 大 值 ， 
从 对 应 子 串 中 取出 该 值 那么 多 的 字符 。 在 图 12-23 中 ， 这 个 值 是 3， 而 最 长 重复 的 模式 就 
是 ana。 

图 12-24 给 出 了 对 任意 字符 串 计 算 后 级 数组 和 最 长 公共 前 级 信息 的 简单 代码 。 第 28 ~30 行 
计算 后 级 ,然后 后 缀 被 存在 第 32 行 。 第 34 ~35 行 计算 后 级 的 起 始 下 标 ， 而 第 37 ~ 39 行 通过 调 
用 写 在 第 4 ~ 13 行 的 computeLCP 例 程 ， 对 相 邻 的 元 素 计算 最 长 公共 前 级 。 


/* 

* Returns the LCP for any two strings 

*/ 
public static int computeLCP( String sl, String s2 ) 
{ 


int i = 0; 
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while( i < sl.length( ) && i < s2.length( ) 
&& sl.charAt( i ) == s2.charAt( i ) ) 
itt; 


return i; 


} 
/* 


* Fill in the suffix array and LCP information for String str 

* @param str the input String 

* @param SA existing array to place the suffix array 

* (param LCP existing array to place the LCP information 

*/ 
public static void createSuffixArray( String str, int [ ] SA, int [ ] LCP ) 
{ 

if( SA.length != str.length( ) || LCP.length != str.length( ) ) 
throw new IllegalArgumentException( ); 


int N = str.length( ); 
String [ ] suffixes = new String[ N ]; 
for( int i = 0; i < N; i+ ) 

suffixes[ i ] = str.substring( i ); 


Arrays.sort( suffixes ); 


for( int i = 0; i < N; i++ ) 
SAL i] =N - suffixes[ i ].length( ); 


LCP[ 0 ] = 0; 
for( int i = 
LCP[ i ] = computeLCP( suffixes[ i - 1 ], suffixes[ i ] ); 


1; i <N; i+ ) 





图 12-24 Gi) a BEAR A LCP 数组 的 简单 算法 
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后 缀 数组 计算 的 运行 时 间 主 要 花 在 排序 步骤 上 ， 用 了 OCN log N) 次 比较 。 在 很 多 情况 下 ， 
这 也 是 可 以 接受 的 合理 表现 了 。 例 如 ， 一 个 3 000 000 字符 的 英文 小 说 的 后 缀 数组 可 以 在 几 秒 
内 建 起 来 。 然 而 ， 基 于 比较 次 数 的 OCN log N) 级 的 开销 隐藏 了 一 个 事实 ， 即 在 sl1 Fil 52 之 间 进 
行 一 次 String 的 比较 所 花 的 时 间 还 依赖 于 LCP(s1， 总 )。 所 以 ,一 方面 当 运 行 在 自然 语言 处 
理 中 找到 的 后 级 上 时 ， 的 确 是 几乎 所 有 这 种 比较 都 能 很 快 结束 ; 而 另 一 方面 当 应 用 中 存在 很 多 
长 的 公共 子 串 时 ， 比 较 将 是 很 昂贵 的 。 一 个 这 样 的 例子 是 DNA 的 模式 查找 ，DNA 的 字母 由 四 
个 字符 (A，C，G, TAR, mi DNA 的 字符 串 可 以 非常 巨大 。 例 如 ， 人 类 22 号 染色 体 的 DNA 
字符 串 有 大 约 3 500 万 个 字符 ， 其 最 大 的 LCP 约 是 200 000， 而 平均 LCP 接近 2 000。 甚 至 
HTML/Java Xf JDK 1.3 的 发 行 ( 比 当前 的 发 行 小 得 多 ) 都 有 将 近 7 000 万 个 字符 ， 其 最 大 的 LCP 
约 是 37 000， 而 平均 LCP 约 是 14 000。 在 String 退化 到 只 包含 一 个 宇 符 的 情况 下 ， 重 复 NV 
次 ， 容 易 看 到 每 次 比较 要 花 OCN) 的 时 间 ， 而 总 开销 是 0(N? log N) 。 

在 12. 4.3 WP, 我们 将 证 明 一 个 构造 后 缀 数组 的 线性 时 间 的 算法 。 
12.4.2 后 缀 树 

后 级 数组 用 折 半 查找 很 容易 查 ， 但 是 折 半 查找 本 身 暗示 了 log T 的 开销 。 我们 想 做 的 是 用 
更 有 效 的 方法 找到 一 个 匹配 的 后 级 。 一 个 思路 是 将 后 缀 存在 一 个 字典 树 (trie) 里 。 我 们 在 
10. 1.2 节 的 哈 夫 曼 编 码 中 讨论 过 一 个 二 又 字典 树 ” 。 

字典 树 的 基本 思路 是 将 后 级 存在 一 棵 树 里 。 在 根 节点 ,我 们 不 是 有 两 个 分 支 ， 而 是 对 每 个 
可 能 的 首 字母 有 一 个 分 支 。 然 后 在 下 一 层 ， 我 们 对 下 一 个 字母 有 一 个 分 支 ， 以 此 类 推 。 在 每 一 
层 ， 我 们 做 多 路 分 支 ， 这 很 像 基 数 排序 ， 于 是 我 们 可 以 在 仅 依赖 于 匹配 长 度 的 时 间 内 找到 一 个 
匹配 。 

在 图 12-25 中 ,我 们 看 到 左边 是 一 个 存储 字符 串 deed 后 缀 的 基本 的 字典 树 。 这 些 后 缀 是 d， 
deed, ed 以 及 eed。 在 这 个 字典 树 中 ， 内 部 的 分 支 节点 被 画 成 圆圈 ， 而 到 达 的 后 级 被 画 成 方块 。 
每 个 分 支 用 其 选择 的 字符 来 标记 但 是 一 个 完整 后 缀 前 面 的 那个 分 支 没 有 标记 。 





图 12-25 ÆW: 表示 deed 后 级 的 字典 树 : |d, deed, ed, eed}; 
右边 : 塌 缩 了 单 节点 分 支 的 压缩 字典 树 


如 果 有 很 多 节点 都 只 有 一 个 孩子 ， 那么 这 种 表示 法 会 浪费 很 多 空间 。 所 以 在 图 12-25 中 ， 
我 们 看 到 右边 有 个 等 价 的 表示 ， 称 为 压缩 字典 树 ( compressed trie)。 这 里 ， 单 分 支 节点 被 塌 缩 
为 一 个 单 节点 。 注 意 ， 尽 管 现在 分 支 有 多 字符 标记 ， 但 对 任何 给 定 节点 分 支 的 所 有 标记 都 必须 
有 唯一 的 首 字母 。 于 是 选择 用 哪个 分 支 还 是 如 以 前 一 样 容易 。 所 以 我 们 如 愿 以 偿 地 看 到 ， 搜 索 
一 个 模式 P 仅 依赖 于 模式 P 的 长 度 。( 我 们 假设 字母 用 数字 1，2，… 来 表示 。 则 每 个 节点 存储 
一 个 数组 ， 它 表示 每 个 可 能 的 分 支 ， 我 们 可 以 在 常数 时 间 内 定位 合适 的 分 支 。 空 的 边 标记 可 以 
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用 0 来 表示 。) 

如 果 原 始 字符 串 长 度 为 Y， 所 有 分 支 的 总 个 数 会 小 于 2N。 但 是 ， 仅 此 并 不 意味 着 压缩 字 
典 树 使 用 了 线性 空间 。 边 上 的 标记 也 占用 空间 。 图 12-25 中 压缩 字典 树 的 所 有 标记 的 总 长 度 正 
好 是 图 12-25 中 原始 字典 树 的 内 部 分 支 节点 数 减 1。 当然， 把 所 有 后 级 写 入 叶 节 点 会 占用 平方 
级 的 空间 。 所 以 如 果 原 始 字 典 树 用 了 平方 级 的 空间 ， 那 么 压缩 字典 树 也 一 样 。 幸 运 的 是 ,我 们 
可 以 克服 这 个 问题 ， 以 下 方法 仅 用 线性 空间 : 

L 在 叶 节 点 中 ,我 们 用 后 级 起 始 的 下 标 ( 如 在 后 缀 数组 中 一 样 )。 

2. 在 内 部 节点 中 ,我 们 存储 从 根 到 该 内 部 节点 匹配 的 公共 字符 的 个 数 ， 这 个 数字 表示 字 
TER E ( letter depth) 。 

图 12-26 展示 了 关于 banana 后 缀 的 压缩 字典 树 是 如 何 存 储 的 。 叶 子 就 是 每 个 后 缀 的 起 始点 
下 标 。 字 母 深 度 为 1 的 内 部 节点 表示 它 下 面 所 有 节点 的 公共 串 “a”。 字 母 深 度 为 3 的 内 部 节点 
表示 它 下 面 所 有 节点 的 公共 串 “ana”。 字 母 深度 为 2 的 内 部 节点 表示 它 下 面 所 有 节点 的 公共 串 
“na”。 事 实 上 ， 这 个 分 析 清 楚 地 表明 后 缀 树 跟 后 级 数组 加 LCP 数组 是 等 价 的 。 





图 12-26 表示 banana 后 级 的 压缩 字典 树 : |a, ana, anana, banana, na, nana|, 31: 
显 式 表示 法 ; 右边 : 隐 式 表示 法 ， 每 个 节点 只 存 一 个 整数 (加 分 支 ) 


如 果 我 们 有 一 棵 后 缀 树 ， 就 可 以 通过 一 次 对 该 树 的 中 序 遍 历 ( 比较 图 12-23 和 图 12-26 中 的 
后 缀 树 ) 来 计算 后 缀 数组 和 LCP 数组 。 那 时 我 们 可 以 按 以 下 方法 计算 LCP: 如 果 后 缀 节点 值 加 
上 父 节 点 的 字母 深度 等 于 NN， 则 将 祖父 节点 的 字母 深度 作为 LCP; 否则 将 父 节 点 的 字母 深度 作 
为 LCP。 在 图 12-26 中 ， 如 果 做 中 序 遍历 ， 就 得 到 后 级 和 LCP fi: 

后 级 =5，LCP =0( 祖 父 节 点 ) 因为 5+1 等 于 6 

后 级 =3，LCP =1( 祖 父 节点 ) 因 为 3+3 等 于 6 

上 后 级 =1，LCP =3( 父 节点 ) 因 为 1+3 不 等 于 6 

后 级 =0，LCP =0( 父 节点 ) 因为 0+0 不 等 于 6 

后 级 =4，LCP =0( 祖 父 节点 ) 因为 4+2 等 于 6 

后 级 =2，LCP =2( 父 节点 ) 因为 2+2 不 等 于 6 
这 个 变换 显然 可 以 在 线性 时 间 完 成 。 

后 缀 数组 和 ICP 数组 也 唯一 地 定义 了 后 级 树 。 首 先 ， 创建 一 个 字母 深度 为 0 的 根 节点 。 然 
fate LCP 数组 中 找 (忽略 位 置 0， 那 里 LCP 实际 上 没有 定义 ) 最 小 值 (此 时 应 该 是 0) 出 现 的 所 有 
地 方 。 一 旦 找到 了 这 些 最 小 值 ， 它 们 将 把 数组 分 割 成 片段 (将 LCP 看 成 是 位 于 两 个 相 邻 元 素 之 
间 ) 。 例 如 ， 在 我 们 的 例子 里 ，LCP 数组 中 有 两 个 0， 将 后 级 数组 分 成 了 三 部 分 : 一 部 分 包括 
后 级 |5，3，11 ， 男 一 部 分 包括 后 级 101 ， 第 三 部 分 包括 后 级 14，,2|1 。 这 些 部 分 的 内 部 节点 可 
以 递归 地 建立 ， 然 后 后 缀 叶子 节点 可 以 用 一 次 中 序 遍历 贴 上 去 。 虽 然 并 不 显然 ,但 只 要 谨慎 一 
些 就 能 用 线性 时 间 从 后 级 数组 和 LCP 数组 生成 后 缀 树 。 

后 级 树 可 以 有 效 地 解决 很 多 问题 ， 特 别 是 ， 如 果 我 们 要 在 每 个 内 部 节点 增加 维护 存在 它 下 
面 的 后 缀 的 数量 。 后 级 树 的 一 小 部 分 应 用 列举 如 下 : 

1. 找到 了 中 最 长 的 重复 子 串 : 遍历 树 ， 找 到 带 最 大 字母 深度 的 内 部 节点 ， 这 就 表示 了 最 
大 的 LCP。 运 行 时 间 是 0( | 7| ) 。 还 可 以 推广 到 重复 了 至 少 上 遍 的 最 长 子 串 。 
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2. 找到 两 个 字符 串 T1 Fo T2 的 最 长 公共 子 串 : 合成 一 个 字符 串 71#72 ， 其 中 # 是 不 在 任 一 
字符 串 中 的 某 个 字符 。 然 后 为 这 个 字符 串 建立 后 级 树 ， 找 到 最 深 的 那个 内 部 节点 ， 其 至 少 存在 
一 个 后 缀 是 在 # 之 前 起 始 的 ， 一 个 是 在 # 之 后 起 始 的 。 这 个 完成 时 间 可 以 做 到 跟 字 符 串 的 总 长 度 
成 正比 ， 并 且 推 广 为 解 决 总 长 度 为 N 的 个 字符 串 问题 的 0(kN) 算 法 。 

3. 找到 模式 已 出 现 的 次 数 : 假设 后 级 树 增加 了 记录 ， 简 单 地 沿 着 内 部 节点 向 下 的 路 径 ， 
使 每 个 叶子 保持 跟踪 其 下 面 的 后 缀 的 个 数 ; 第 一 个 是 P 的 前 级 的 内 部 节点 提供 了 答案 ; 如 果 这 
样 的 节点 不 存在 ， 答案 是 0 或 1， 可 以 通过 检查 搜索 终止 处 的 后 级 来 得 到 。 这 个 花费 的 时 间 跟 
模式 P 的 长 度 成 正比 ， 而 与 17 | 的 大 小 无 关 。 

4. 找到 指定 长 度 L>1 的 最 常见 子 串 : 返回 那些 字母 深度 至 少 为 上 的 节点 中 规模 最 大 的 内 
部 节点 。 所 花 时 间 是 0( |7| ) 。 

12.4.3 ”线性 时 间 的 后 缀 数组 和 后 缀 树 的 构建 

在 12.4. 1 节 我 们 展示 了 最 简单 的 构建 后 级 数组 和 LCP 数组 的 算法 ,但 是 这 个 算法 对 于 一 
个 有 WN 个 字符 的 串 的 最 坏 运 行 时 间 是 0(N log N) ， 而 且 当 字符 串 的 后 级 有 比较 长 的 公共 前 缀 
时 会 发 生 这 种 最 坏 情 况 。 在 本 节 ， 我 们 描述 一 个 最 坏 时 间 是 0(NN) 的 算法 ， 用 来 计算 后 缀 数 
组 。 这 个 算法 还 可 以 加 强 ， 用 以 在 线性 时 间 内 计算 LCP 数组 , 但 是 还 有 一 种 非常 简单 的 线性 时 
间 算 法 ， 来 从 后 缀 数组 中 计算 LCP 数组 ( 见 练习 12.9 和 图 12-50 的 完整 代码 ) 。 无 论 哪 种 方法 ， 
我 们 都 可 以 在 线性 时 间 内 建立 一 棵 后 级 树 。 

算法 用 到 了 分 治 。 基 本 思路 如 下 : 

1. 选择 后 级 的 一 个 样本 集 4。 

2. 用 递归 将 样本 集 4 排序 。 

3. 利用 当前 有 序 的 后 级 样本 集 4 将 剩 下 的 后 级 集合 B 排序 

4. 归并 4 和 8B。 

为 了 理解 第 3 步 为 什么 会 管用 ， 设 后 缀 样本 集 4 是 所 有 从 奇数 下 标 开始 的 后 缀 ， 于 是 剩 下 
ste hh tet tt 所 以 , 设 我 们 已 经 计算 了 后 级 样本 集 A 的 有 序 集 
合 。 要 计算 后 级 样本 集 8 的 有 序 集合 ,我们 实际 上 得 对 所 有 从 偶数 下 标 开始 的 后 缀 进行 排序 。 
但 这 些 后 级 每 个 都 有 一 个 首 字母 在 偶数 位 置 上 ， 后 面 跟 着 一 个 字符 串 ， 其 开始 于 第 二 个 字符 ， 
并 且 这 个 字符 一 定 在 一 个 奇数 位 置 上 。 所 以 从 第 二 个 字符 开始 的 字符 串 正 是 4 中 的 一 个 字符 
串 。 于 是 要 对 B 中 所 有 后 级 排序 ,我们 可 以 用 类 似 于 基数 排序 的 做 法 。 首 先 将 B 中 从 第 二 个 字 
符 开始 的 字符 串 进行 排序 ， 这 应 该 花费 线性 时 间 ， 因 为 4 的 有 序 顺序 是 已 知 的 。 然 后 对 B 中 字 
符 串 的 首 字母 进行 稳定 排序 。 于 是 在 4 被 递归 排序 之 后 ，B 可 以 在 线性 时 间 内 排序 。 如 果 随 后 
Am B 可 以 在 线性 时 间 内 归并 ， 我们 就 得 到 了 一 个 线性 时 间 的 算法 。 我 们 提出 的 这 个 算法 用 了 
一 种 不 同 的 采样 步 又， 使 得 简单 的 线性 时 间 的 归并 步骤 得 以 执行 。 

当 我 们 描述 算法 时 ， 我 们 还 将 展示 如 何 对 字符 串 ABRACADABRA 计算 后 缀 数组 。 我 们 采 
用 下 列 约定 : 

Si] RAR FRR 5S 的 第 i 个 字符 

S[i= >] 表示 S 的 从 下 标 i 起 始 的 后 缀 

<> 表示 一 个 数组 

步骤 1: 将 字符 串 中 的 字符 进行 排序 ， 从 1 开始 给 它们 顺序 分 配 数字 ， 然 后 在 接 下 来 的 算 
法 中 使 用 那些 数字 。 注 意 到 分 配 的 数字 依赖 于 文本 ， 所 以 ， 如 果 文 本 仅 包 含 DNA 字符 A，C， 
G，T， 则 只 会 有 4 个 数字 。 然 后 在 数组 中 填充 三 个 0 以 避免 边界 情况 出 问题 。 如 果 我 们 假设 字 
母 表 是 定 长 的 ， 则 排序 只 用 常数 级 的 时 间 。 

例 : 

在 我 们 的 例子 中 ,映射 是 A=1，B=2, C=3, D =4，R=5， 变 换 可 以 通过 图 12-27 直观 
地 理解 。 
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NEIE: eae: 
a 
图 12-27 将 字符 串 中 的 字符 映射 为 整数 数组 


步骤 2: 将 文本 划分 为 三 组 
S, = <S[3i]S[3i +1]S[3i +2], 对 于 i=0, 1, 2, => 
S, = <S[3i+1]S[3i+2]S[3i +3], XF iz0, 1, 2, => 
S, = <S[3i+2]S[3i+3]S[3i+4], 对 于 i=0, 1, 2, => 

BKE, S, S,, S 每 个 由 大 约 N/3 个 符号 组 成 ， 但 是 符号 不 再 是 原始 的 字母 ， 取 而 代 之 
的 是 ， ta a 是 某 三 个 原始 字母 表 中 符号 组 成 的 组 。 ee aaiae tai 
REZE, S,, S, S, 的 后 级 组 合 起 来 形成 了 5 的 后 级 。 于 是 一 个 思路 就 是 递归 地 计算 S,, 
Bo hd MX TRUE IF HEN AO... MEME BIALSOHÉOR., atm 
因为 这 是 对 大 小 为 173. 原始 规模 的 问题 做 三 次 递归 调用 ， 所 以 结果 会 导致 一 个 0(N log N) 的 算 
法 。 所 以 思路 就 是 通过 递归 计算 其 中 两 个 后 缀 分 组 ， 并 利用 该 信息 计算 第 三 个 后 级 分 组 ， 以 避 
免 三 次 中 的 一 次 递归 调用 。 

i: 

在 我 们 的 例子 中 ， 如 果 观 察 原 始 的 字符 集合 ， 并 用 $ 表 示 填 充 的 字符 ， 则 得 到 

S,=[ ABR], [ACA], [DAB], [RAS] 
S, - [BRA], [CAD], [ABR], [A$$] 
F =[RAC], [ADA], [BRA] 

我 们 可 以 看 到 ， 在 SQ, S,, S, 中 每 个 三 字符 现在 变 成 一 个 原始 字母 表 的 三 字符 组 。 利 用 那 
个 字母 表 ， Ha oen d ti 而 S, 是 长 度 为 3 HRH. So, Si, S 于 是 分 别 有 4、4、 
3 个 后 级 。S 的 后 缀 是 [ ABR] [ ACA][ DAB] [RAS], [ACA][ DAB][ RAS], [DAB][RA$], 
[RAS], ， 很 明显 地 对 应 了 原始 字符 串 中 的 后 级 ABRACADABRA, ACADABRA, DABRA, RA, 
在 原始 字符 串 5 中 ， 这 些 后 缀 分 别 位 于 下 标 为 0、 3、6、9 的 位 置 ， 所 以 观察 所 有 三 个 S, S 
S ， 我 们 会 发 现 每 个 S, 表示 在 5 中 位 于 下 标 是 i mod 3 位 置 的 那些 后 缀 。 

步骤 3: 将 S AS, BK, 递归 地 计算 后 缀 数组 。 为 了 计算 这 个 后 级 数组 ,我 们 要 将 新 

的 三 字符 的 字母 表 排序 。 用 三 赵 基 数 排序 可 以 在 线性 时 间 完 成 这 一 步 ， 因 为 旧 的 字符 已 经 在 步 
WEL 排 好 序 了 。 如 果 事 实 上 所 有 新 字母 表 的 三 字符 都 是 唯一 的 ， 则 我 们 根本 就 不 用 费事 地 进行 
递归 调用 。 执 行 三 趟 基数 排序 需要 线性 时 间 。 如 果 7T(NN) 是 后 缀 数组 构建 算法 的 运行 时 间 ， 则 
递归 调用 要 花 T(2N73) 的 时 间 。 

例 : 

在 我 们 的 例子 中 

S,S, [BRA], [CAD], [ABR], [A$$], [RAC], [ADA], [BRA] 
递归 计算 出 的 有 序 的 后 缀 将 表示 三 字符 的 串 ， 如 图 12-28 所 示 。 

注意 这 些 与 5 中 的 对 应 后 级 并 不 完全 一 样 ， 然 而 ， 如 果 我 们 剔除 从 第 一 个 $ 开始 的 那些 字 
符 ， 就 能 得 到 后 缀 的 匹配 。 还 要 注意 到 递归 调用 返回 的 下 标 也 不 是 直接 跟 S 中 的 下 标 对 应 的 ， 
当然 将 它们 映射 回去 是 很 简单 的 事情 。 于 是 要 明白 算法 实际 上 是 如 何 形成 的 递归 调用 ， 则 要 观 
察 到 三 趟 基数 排序 将 分 配 以 下 字母 表 : [A$$] 21, [ABR] =2, [ADA] =3, [BRA] =4， 
[CAD] =5, [RAC] =6。 图 12-29 展示 了 三 字符 的 映射 、 对 S, 和 5, 形成 的 结果 数组 以 及 递归 
计算 出 的 后 缀 数组 。- 
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所 表示 的 子 串 
[AS$S][RAC][ADA][BRA] 
[ABR][ASS]IRAC][ADA][BRA] 
[ADA][BRA] 











[BRA][CAD][ABR][A$$][RAC][ADA][BRA] 
[CAD][ABR][ASS][RAC][ADA][BRA] 
[RAC][ADA][BRA] 
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图 12-28 在 三 字符 集合 中 的 SS, KERNE 
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[12-29 三 字符 的 映射 、 对 S, 和 S, 形成 的 结果 数组 以 及 递归 计算 出 的 后 缀 数组 


步骤 4: 对 $6 计算 后 缀 数组 。 这 很 容易 做 ， 因 为 
Si S's BS | 
= S[3i]S[3i € 1 =>] 
= S[3i]S[i =>] 
= S[i]S [i =>] 569 
递归 调用 已 经 将 所 有 S (i= > ] 排 序 了 ， 因 此 我 们 可 以 用 简单 的 两 趟 基数 排序 来 做 步骤 4:; 第 
一 趟 在 S, [je > ] 上 做 ， 第 二 趟 在 S [i] EG 
15: 
在 我 们 的 例子 中 
S,  [ABR], [ACA], [DAB], [RA$] 
从 步骤 3 的 递归 调用 ,我 们 可 以 将 5, 和 5, 的 后 缀 分 级 。 图 12-30 展示 了 如 何在 递归 计算 
出 的 后 绥 数 组 中 引用 原始 字符 串 的 下 标 ， 并 且 展 示 了 从 图 12-29 中 得 到 的 后 缀 数组 如 何 导 出 
+S, 中 后 级 的 分 级 。 从 下 一 行 到 最 后 一 行 的 元 素 可 以 通过 前 两 行 很 容易 地 得 到 。 在 最 后 一 
， 第 i 个 元 素 由 i 在 标记 为 SALS,, S, ] 的 那 行 中 的 位 置 给 出 。 








a E 
e 





= | 

5 中 的 下 标 2 

SA[S,S;] 0 So 
Wl o ee EN a ee ee 
| aoa — | s | & | 2 |] 1] 7 | $ |a Jj 


图 12-30 ”基于 图 12-29 给 出 的 后 缀 数组 得 到 的 后 缀 分 级 





在 S, 中 建立 的 分 级 可 以 直接 用 于 So 上 的 第 一 趟 基数 排序 。 然 后 我 们 对 S 中 的 单字 符 做 第 
二 趟 排序 ， 用 之 前 的 基数 排序 打破 平局 。 注 意 ， 如 果 S, 和 5。 有 完全 一 样 多 的 元 素 ， 那 将 是 很 
方便 的 。 图 12-31 展示 了 我 们 可 以 如 何 计算 5, 的 后 级 数组 。 
到 此 为 止 ， 我 们 有 了 SAK S, AS, 组 合 的 后 级 数组 。 因 为 这 是 一 次 两 趟 基数 排序 ， 所 以 
一 步 花 费 O(N) « 











570 








378 第 12 章 











下 标 

第 2 个 元 素 的 下 标 上 行 加 1 

基数 第 1 趟 排序 图 12-30 的 最 后 一 行 
基数 第 2 趟 排序 4 首 字 母 的 稳定 基数 排序 
组 的 分 级 4 用 前 一 行 的 结果 

用 前 一 行 的 结果 























图 12-31 为 5, 计 算 后 级 数 组 


步骤 5: 用 归并 两 个 有 序 表 的 标准 算法 将 两 个 后 绥 数 组 归并 。 仅 有 的 问题 是 我 们 必须 能 够 
在 常数 时 间 内 比较 每 一 对 后 级 。 有 两 种 情况 。 

情况 1: HERES ACR ALS, 的 元 素 。 比 较 首 字母 ， 如 果 它 们 不 匹配 就 结束 了 ; 否则 , H S, 
剩 下 的 部 分 ( 即 S, 的 后 级 ) 与 S, 剩 下 的 部 分 ( 即 S, 的 后 缀 ) 相 比 。 那 些 已 经 排 好 序 了 ， 所 以 
结束 。 

情况 2: 比较 5, 的 元 素 和 5, 的 元 素 。 最 多 比较 前 两 个 字母 ， 如 果 还 是 匹配 的 ， 则 将 5, 剩 下 
的 部 分 (在 跳 过 两 个 字母 后 是 S, 的 后 级 ) 与 S, 剩 下 的 部 分 (在 跳 过 两 个 字母 后 是 S, 的 后 级 ) 相 
比 。 与 情况 1 一样， 那些 后 级 已 经 由 SA12 排 好 序 了 ， 所 以 结束 。 

例 : 

在 我 们 的 例子 中 ， 需 要 归并 


ELDER XE MI 
5, 的 SA Mo ee ke I 
t 


| oai cae | A A ks] pl. e| Col Beal 
| SapsA | to |7|s]|s]|1]4]? | 
t 


第 一 次 比较 是 在 % 的 元 素 下 标 0( 一 个 A) 和 S, 的 元 素 下 标 10( 也 是 一 个 A) 之 间 。 因 为 是 
平局 ， 现 在 我 们 得 比较 下 标 1 和 下 标 11。 正 常情 况 下 这 应 该 已 经 被 计算 过 了 ， 因 为 下 标 1 在 8， 
H, 下 标 11 在 5S, 中。 然而， 这 次 情况 特殊 ， 因 为 下 标 11 越过 了 字符 串 的 终点 ， 于 是 它 总 是 按 
字典 序 表示 早先 的 后 级 ， 并 且 最 终 的 后 缀 数组 的 第 一 个 元 素 是 10。 我 们 推进 第 二 组 ， 现 在 
得 到 





Ea | A} AL ALL BB Lc] aR 
See eH sober 


| 








ET EJEN 
再 次 遇 到 首 字母 匹配 ， 于 是 我 们 比较 下 标 1 和 8， 而 这 已 经 被 计算 过 了 ， 下 标 8 有 比较 小 
的 字符 串 。 所 以 这 意味 着 现在 7 进入 最 终 的 后 缀 数组 ， 我 们 推进 第 二 组 ， 得 到 
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[8| 9 | 10 | 
又 一 次 遇 到 首 字 母 匹配 ， 现 在 我 们 得 比较 下 标 1 和 65 因为 这 是 S, 元 素 和 5, 元 素 之 间 的 一 
次 比较 ， 我 们 找 不 到 结果 了 。 于 是 不 得 不 直接 比较 字符 。 下 标 1 包含 B， 下 标 6 包 含 D， 所 以 
下 标 1 胜 。 于 是 0 进入 最 终 的 后 级 数组 ,我 们 推进 第 一 组 。 


二 
[ss | os fo | 8 
Cc 


A 

t 
Ud dk ET A T SERES 
[SmSsA |1 | 7 了 5 |s| fa | 2 | 


Lud 
[AJC] AJD] AJB R| A | 
[2]3[]4|5[6]|7]89]9] w] 
下 一 次 比较 在 一 对 A 之 间 进 行 ， 又 发 生 了 同样 的 情况 ; 第 二 次 比较 在 下 标 4( 一 个 C) 和 下 
标 6( 一 个 D) 之 间 进 行 ， 所 以 第 一 组 的 元 素 向 前 推进 。 


[UR | ae EISE. | 
p sms ME DEE doe dean] - 
EY SAL) 
| SISMA | 





s |r| a| cao] ajer] ^] 
|2 4 6 











7 


Ee a A P| RE 
3 和 3 的 SA Lu [7 [s ol d] 
1 











此 时 有 一 阵子 没有 平局 了 ， 所 以 我 们 很 快 地 推进 到 每 组 的 最 后 一 个 字符 : 

CERESA ELSENDI 
SNA | os | 
1 
ean a 
| Si 和 SSA | 


| [I | | Bn | | 
3 和 5 的 SA [ie Pes ESES 
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终于 ， 我 们 到 达 了 终点 。 两 个 R 之 间 的 比较 需要 比较 下 一 对 位 于 下 标 10 和 3 的 字符 。 
是 S, 元 素 和 So 元 素 之 间 的 一 次 比较 ， 如 之 前 所 见 ， 我 们 找 不 到 结果 而 必须 做 直接 比较 。 n 
些 还 是 一 样 的 ， 所 以 我 们 现在 不 得 不 比较 下 标 11 和 4， 下 标 11 自动 胜出 ( 因为 它 越过 了 字符 串 
的 终点 ) 。 于 是 位 于 下 标 9 的 R 向 前 推进 ， 然 后 我 们 就 结束 了 归并 。 注 意 到 如 果 不 是 到 达 了 字 
符 串 的 终点 ， 就 可 以 利用 一 个 事实 ， 即 比较 是 在 S, TOR S, 元 素 之 间 进 行 ， 即 意味 着 从 S + 
S, 的 后 缀 数组 中 应 该 已 经 得 到 了 顺序 。 


| 
TOINA 
‘ 


mS el tl Da t ik a WN 
| smisiisa — [uo[vzjs]s]:]24[2j 


eee Teepe 
B| R ELETA IEA S, BA, 











因为 这 是 一 次 标准 的 归并 ,每 对 后 组 执行 最 多 两 次 比较 ， 所 以 这 一 步 花 费 了 线性 时 间 。 于 
是 算法 整体 上 满足 7T(N) 2 T(2N/3) 0(N)， 花 费 线性 时 间 。 虽然 我 们 只 计算 了 后 缀 数组 ， 
LCP 的 信息 也 能 够 在 算法 运行 中 计算 , 但 是 涉及 一 些 麻 烦 的 细节 ， 通常 LCP 信息 是 用 另外 一 种 
线性 时 间 的 算法 计算 的 。 

我 们 以 提供 一 个 计算 后 缀 数组 的 可 用 的 实现 作为 结束 。 与 其 完全 实现 步骤 1 来 对 原始 字符 进行 
排序 ， 不 如 假设 字符 串 中 只 有 一 个 ASCII 字符 (其 值 位 于 1 ~255 ) 的 小 集合 。 在 图 12-32 中 ,我 们 分 配 
了 带 有 三 个 用 于 填充 的 额外 空 档 的 数组 ， 并 且 调 用 基本 的 线性 时 间 算 法 makeSuffixArray 。 





li * 

2 * Fill in the suffix array and LCP information for String str 

3 * @param str the input String 

4 * @param sa existing array to place the suffix array 

5 * @param LCP existing array to place the LCP information 

6 */ 

7 public static void createSuffixArray( String str, int [ ] sa, int [ ] LCP ) 
8 

9 if( sa.length != str.length( ) || LCP.length != str.length( ) ) 
10 throw new IllegalArgumentException(. ) ; 

11 

12 int N = str.length( ); 

13 

14 int [] s = new intE N+ 3]; 

15 int [ ] SA = new int[ N * 3 ]; 

16 

17 for( int i = 0; i < N; i++) 

18 s[ i ] = str.charAt( i ); 

19 

20 makeSuffixArray( s, SA, N, 256 ); 

21 

22 for( int i = 0; i < N; i++ ) 

23 sal i ] = SAL i ]; 

24 

25 makelCPArray( s, sa, LCP ); // Figure 12.50 and Exercise 12.9 








12-32 $&& y makeSuffixArray 首次 调用 的 代码 。 创 建 规模 适当 的 数组 ， 
并 且 保 持 简单 性 ， 只 用 256 个 ASCI 字符 码 
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图 12-33 展示 了 makeSuffixarray。 在 第 12 ~ 16 行 分 配 了 所 有 需要 的 数组 ， 并 且 保 证 
So 和 S, 具有 相同 数量 的 元 素 ( 第 17 -22 行 )， 然 后 把 工作 交 给 assignNames 、computeS12、 
computeS0 以 及 merge, 


// find the suffix array SA of s[ 0..n-1] in (1..K)^n 
// require s[n] =s[n+1]=s[n+2]=0,n>=2 
public static void makeSuffixArray( int [ ] s, int [ ] SA, 
int n, int K ) 
{ 
int n0 
int nl 
int n2 
int t = n0 - nl; // 1 iff n%3 == 1 
int n12 = nl + n2 + t; 


int [ ] s12 new int[ nl2 + 3 ]; 
int [ ] SA12 = new int[ n12 + 3 ]; 
int [ ] s0 new int[ n0 ]; 
int [ ] SAO new int[ n0 ]; 


// generate positions in s for items in s12 
// the "+t" adds a dummy S1 suffix if n%3 == 
// at that point, the size of s12 is nl2 
for( int i = 0, j = 0; i < n+ t; i+ ) 
if(i%3!=0) 
sl2[ j++ ] = i; 


1 
2 
3 
4 
5 
6 
7 
8 
9 
10 
11 
12 
13 
14 
15 
16 
17 
18 
19 


ht M&S HS h3 
U N= C 


int K12 = assignNames( s, s12, SA12, n0, n12, K ); 


NNN 
au sb 


computeS12( s12, SA12, n12, K12 ); 
computeSO0( s, s0, SAO, SA12, n0, n12, K ); 
merge( s, s12, SA, SAO, SA12, n, nO, n12, t ); 


hm NI 
O œ N 





图 12-33 ”线性 时 间 的 后 绥 数 组 构建 的 主 例 程 


图 12-34 所 示 的 assignNames 从 执行 三 趟 基数 排序 开始 。 然 后 它 分 配 名 称 ( 即 数字 ) ， 如 
果 当 前 项 有 一 个 与 前 一 项 不 同 的 三 字符 组 ， 则 顺序 使 用 下 一 个 可 用 的 数字 (回顾 一 下 ， 三 字符 
已 经 经 过 三 趟 基数 排序 被 排 好 了 ,并 且 SA S 具有 相同 规模 ， 所 以 在 第 32 行 ， 加 上 no 就 增 
加 了 S, 中 元 素 的 个 数 ) 。 我 们 可 以 用 第 7 章 中 基本 的 计数 基数 排序 来 得 到 一 个 线性 时 间 的 排 
序 。 这 部 分 代码 在 图 12-35 中 给 出 。 数 组 in 表示 s 中 的 下 标 。 基 数 排序 的 结果 是 ， 下 标 被 排 
序 使 得 s 中 的 字符 在 那些 下 标 处 是 有 序 的 (其 中 那些 下 标 被 指定 为 offset ) 。 
// Assigns the new tri-character names. 


// At end of routine, SA will have indices into s, in sorted order 
// and s12 will have new character names 


// Returns the number of names assigned; note that if 
// this value is the same as n12, then SA is a suffix array for s12. 
private static int assignNames( int [ ] s, int [ ] s12, int [ ] SA12, 





图 12-34 计算 并 分 配 三 字符 名 称 的 例 程 


382 $123 








int nO, int nl2, int K ) 


// radix sort the new character trios 
radixPass( s12 , SA12, s, 2, nl2, K ); 
radixPass( SA12, s12 , s, 1, nl2, K ); 
radixPass( s12 , SA12, s, 0, n12, K ); 


// find lexicographic names of triples 
int name = 0; 
int c0 = -1, cl = -1, c2 = -1; 


for( int i = 0; i < n12; i++ ) 


{ 


if( st SA12[ i] ] t= cO || st SAI2[ i] +1] != cl 
|| sl SAl2[ i] +2] != c2) 


{ 
name++; 
c0 = s[ SAl2[ i] ]; 
cl = s[ SAl2[ i] +1]; 
c2 = s[ SAI2Z[ i] + 2 ]3 
} 


if( SAl2[ 1] %3 ==1) 

sl2[ $412L[ 1] / 3] name; // S1 
else 

sl2[ SA12[ 1] / 3 + n0] = name; // S2 


return name; 





[12-34 (£4) 


// stably sort in[0..n-1] with indices into s that has keys in O..K 

// into out[0..n-1]; sort is relative to offset into s 

// uses counting radix sort 

private static void radixPass( int [ ] in, int [ ] out, int [] s, 
i int offset, int n, int K ) 

{ 


int [ ] count = new int[ K + 2 ]; 


CAN DUN AW NH — 


for( int i = 0; i < n; i+ ) 
count[ s[ in[ i ] + offset ] + 1 J++; 


Se mw 
N= oO 


for( int i = 1; i <= K + 1; i++ ) 
count[ i ] += count[ i - 1 ]; 


æ w 
U Bw 


for( int i = 0; i < n; i++ ) 





图 12-35 后 缀 数组 的 计数 基数 排序 
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out[ count[ s[ in[ i ] + offset ] ]++ ] = in[ i]; 


// stably sort in[0..n-1] with indices into s that has keys in 0..K 
// into out[0. .n-1] 


// uses counting radix sort 

private static void radixPass( int [ ] in, int [ ] out, int [ ] s, 
int n, int K ) 

{ 


radixPass( in, out, s, 0, n, K ); ‘~ 





图 12-35 (4X) 
图 12-36 包含 了 先后 为 s12 、s0 计算 后 级 数组 的 例 程 。 


// Compute the suffix array for s12, placing result into SA12 
private static void computeS12( int [ ] s12, int [ ] SA12, 
int n12, int K12 ) 
{ 
if( K12 == n12 ) // if unique names, don't need recursion 
for( int i = 0; i < n12; i++ ) 
SAI2[ s12[ i] -1] =i; 


Oo 1 AURAR UNSS 


else 


{ 


~ 
O o 


makeSuffixArray( s12, SA12, n12, K12 ); 
// store unique names in s12 using the suffix array 
for( int i = 0; i < n12; i+ ) 
s12[ SA12[ 1] ]=i+1; 


= €— 
U N = 


} 


private static void computeSO( int [ ] s, int [ ] s0, int [ ] SAO, 
int [ ] SA12, int nO, int n12, int K ) 


{ 
for( int i = 0, j 0; i < n12; i++ ) 
if( SAl2[ i ] < n0 ) 
sO[ j++ ] = 3 * SA12[ i]; 


radixPass( s0, SAO, s, n0, K ); 





图 12-36 为 s12( 可 能 是 递归 地 ) 以 及 so HS APR. 


576 
BUG. merge 例 程 在 图 12-37 中 给 出 ， 一 些 支撑 例 程 在 图 12-38 中 给 出 。 这 个 归并 的 例 程 
与 图 7-10 中 见 过 的 标准 归并 算法 有 着 基本 相同 的 外 表 和 感觉 。 SN 
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// merge sorted SAO suffixes and sorted SA12 suffixes 

private static void merge( int [ ] s, int [ ] s12, 
int [ ] SA, int [ ] SAO, int [ ] SA12, 
int n, int nO, int nl2, int t ) 


int p = 0, k = 0; 


while( t != nl2 && p != n0 ) 
{ 


int i = getIndexIntoS( SA12, t, nO ); // S12 index in s 
int j = SA0[ p ]; // SO index in s 


= = 
— OC AN DUN AUNES 


æ = 
Ww N 


if( suffixl2IsSmaller( s, s12, SA12, n0, i, j, t ) ) 
{ 


— = 
U o 


SAL k+ ] = i; 
UH 


= =- 
ND 


} 


else 


{ 


DSH & 
O 'o œ 


SA[ k++ ] 
ptt; 


NI ho ho ho 
UM BR whe — 


while( p < n0 ) 
SA[ k++ ] = SAO[ p++ ]; 
while( t « n12 ) 
SA[ k++ ] = getIndexIntoS( SA12, t++, n0 ); 


NewS ho ho 
\D O00 ^4 ON 





图 12-37 归并 后 缀 数组 SA0 和 SAI2 


private static int getIndexIntoS( int [ ] SA12, int t, int nO ) 
{ 
if( SAl2[ t] < n0) 
return SA12[ t] * 3 + 1; 
else aes 
return ( SAI2[ t] - n0) * 3 + 2; 


w:o DAN DU AW DHS — 


// True if [al a2] <= [bl b2] 
private static boolean leq( int al, int a2, int bl, int b2 ) 
{ return al < bl || al == bi && a2 <= b2; } 


ka a m 
UNEO 


// True if [al a2 a3] <= [b1 b2 b3] 
private static boolean leq( int al, int a2, int a3, int bl, int b2, int b3 ) 
{ return al < bl || al == bl && leq( a2, a3, b2, b3 ); } 


= ~= 
QB 





图 12-38 用 于 归并 后 缀 数组 SA0 和 SA12 的 支撑 例 程 
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private static boolean suffixl2IsSmaller( int [ ] s, int [ ] s12, 
int [ ] SA12, int nO, int i, int j, int t ) 
{ 


if( SA12[ t ] < n0) // sl vs s0; can break tie after 1 char 


return leq( s[ i ], s12[ SA12[ t ] + n0 ], 
s[3 1, sP2[ d / 3] 3s 
else // s2 vs s0; can break tie after 2 chars 
return leq( s[ i], S[ i + 1], si2[ SA12[ t] - n0* 1], 
s[31,s[ 3*1], s122[3/3* n0] ); 





Pl 12-38 ( 续 ) 
12.5 k-d 树 


设 一 广告 公司 拥有 一 个 数据 库 并 需要 为 某 些 客户 生成 邮寄 标签 。 典 型 的 要 求 可 能 是 需要 散 
发 邮件 给 那些 年 龄 在 34 到 49 之 间 且 年 收入 在 100 000 美元 和 150 000 美元 之 间 的 人 们 。 这 个 问 
题 叫 作 二 维 范围 查询 (two-dimensional range query) 。 在 一 维 情 况 下 , 该 问题 可 以 借助 于 简单 的 
递归 算法 通过 遍历 预先 构造 的 二 又 查找 树 以 OCM + log NN) 平均 时 间 解 决 。 这 里 , M 是 由 查询 所 
报告 的 匹配 的 个 数 。 我 们 希望 对 二 维 或 更 高 维 的 情况 得 到 类 似 的 界 。 

二 维 查 找 树 ( two-dimensional search tree) 具有 简单 性 : 在 奇数 层 上 的 分 支 按照 第 一 个 关键 字 
进行 , 而 在 偶数 层 上 的 分 支 按照 第 二 个 关键 字 进 行 。 根 是 任意 选取 的 ， 位 于 奇数 层 。 图 12-39 
表示 一 棵 2-d 树 。 向 一 棵 2-d 树 进 行 的 插 和 人 操作 是 向 一 棵 二 又 查找 树 插 和 人 操作 的 平凡 的 扩展 : 
在 沿 树 下 行 时 , 我 们 需要 保留 当前 的 层次 。 为 保持 程序 代码 简单 , 我 们 假设 基本 项 是 两 个 元 素 
的 数组 。 此 时 我 们 需要 把 层 限 制 在 0 和 1 之 间 。 图 12-40 显示 的 是 执行 一 次 插入 的 程序 。 在 本 
节 使 用 递归 ; 用 于 实践 中 的 非 递归 实现 方法 是 简单 的 , 我 们 把 它 留 作 练 习 12. 17。 特 别 是 由 于 
若干 项 在 一 个 关键 字 上 可 能 相同 , 因此 困难 之 一 是 重复 元 问题 。 我 们 的 程序 允许 重复 元 , 并 且 
总 是 把 它们 放 在 右 分 支 上 ; 显然 , 如 果 有 太 多 的 重复 元 , 那么 这 可 能 就 是 一 个 问题 。 





图 12-39 2-d 树 示 例 


稍 加 思索 便 可 确信 , 一 棵 随机 构造 的 2-d 树 与 一 棵 随机 二 又 查 找 树 具有 相同 的 结构 性 质 : 
高 度 平均 为 O(log N), 但 最 坏 情 形 则 是 O(W) 。 

不 像 二 又 查找 树 有 精巧 的 Oog NN) 最 坏 情形 的 变种 存在 , 没有 已 知 的 方案 能 够 保证 一 棵 平衡 
的 2-d 树 。 问 题 在 于 , 这 样 一 种 方案 很 可 能 基于 树 的 旋转 , 而 树 旋转 在 2-d 树 中 是 行 不 通 的 。 我 们 
能 够 做 得 最 好 的 办 法 是 通过 重新 构造 子 树 来 定期 地 对 树 进行 平衡 , 具体 描述 可 见 练习 。 类 似 地 , 也 不 
存在 超越 明显 的 懒惰 删除 方法 的 删除 算法 。 如 果 在 需要 处 理 查询 之 前 所 有 的 项 都 已 得 到 , 那么 我 们 
就 能 够 以 0( Mog N) 时 间 构 造 一 棵 理想 平衡 2-d 树 (perfectly balanced 2-d tree); 这 就 是 练习 12. 15c。 

有 几 种 查询 可 以 在 2-d 树 上 进行 。 可 以 要 求 精确 的 匹配 , 或 者 基于 两 个 关键 字 中 一 个 关键 
字 的 匹配 ; 后 者 称 为 部 分 匹配 查询 (partial match query)。 这 两 种 都 是 ( 正 交 ) 范 围 查询 (range 
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query ) 的 特殊 情形 。 


public void insert( AnyType [ ] x ) 
{ 
root = insert( x, root, 0 ); 


} 


private KdNode<AnyType> insert( AnyType [ ] x, KdNode<AnyType> t, int level ) 
{ 


if( t == null ) 


t = new KdNode<>( x ); 

else if( x[ level ].compareTo( t.data[ level ] ) < 0 ) 
t.left = insert( x, t.left, 1 - level ); 

else 
t.right = insert( x, t.right, 1 - level ); 

return t; 





Kd 12-40 向 2-d 树 的 插 人 


正 交 范围 查询 给 出 其 第 一 个 关键 字 在 一 个 特殊 的 值 集合 之 间 且 第 二 个 关键 字 在 男 一 个 特殊 的 值 
集合 之 间 的 所 有 的 项 。 这 正 是 我 们 在 本 节 介 绍 中 所 描述 的 问题 。 如 图 12-41 所 示 , 范围 查询 通过 一 次 
递归 的 树 遍 历 容易 解 出 。 通 过 在 递归 调用 之 前 进行 测试 , 可 以 避免 对 所 有 节点 的 不 必要 的 访问 。 


/** 

* Print items satisfying 

* low[ 0] <= x[ 0 ] <= high[ 0 ] and 
* low[ 1] <= x[ 1] <= high[ 1]. 
x/ 

public void printRange( AnyType [ ] low, AnyType [ ] high ) 
{ 

printRange( low, high, root, 0 ); 


— Pe 
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private void printRange( AnyType [ ] low, AnyType [ ] high, 
KdNode<AnyType> t, int level ) 
( 
if( t != null ) 
( 


if( low[ 0 ].compareTo( t.data[ 0 ] ) <= 0 && 
^ low[ 1 ].compareTo( t.data[ 1] ) <= 0 && 
high[ 0 ].compareTo( t.data[ 0 ] ) >= 0 && 
high[ 1 ].compareTo( t.data[ 1] ) >= 0) 
System.out.println( "(" + t.data[ 0 ] + "," 
* t.data[ 1] * ")" ); 


if( low[ level ].compareTo( t.data[ level ] ) <= 0) 
printRange( low, high, t.left, 1 - level ); 

if( high[ level ].compareTo( t.data[ level ] ) >= 0 ) 
printRange( low, high, t.right, 1 - level ); 





图 12-41 2-d jj. 范围 查找 
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为 找到 特定 的 项 , 可 以 令 low 等 于 high 且 等 于 我 们 要 查找 的 项 。 为 了 执行 一 次 部 分 匹配 
查询 , 可 使 在 这 次 匹配 中 涉及 不 到 的 关键 字 的 范围 为 % 到 o 。 而 另 一 个 的 范围 则 设置 为 使 低 
点 和 高 点 等 于 匹配 中 所 涉及 到 的 关键 字 的 值 。 

在 2-d 树 中 插入 或 精确 匹配 查找 花费 的 时 间 平 均 正比 于 树 的 深度 ， 即 平均 为 (log N), mi 
在 最 坏 情形 下 为 0(N) 。 一 次 范围 查找 的 运行 时 间 依 赖 于 如 何 将 树 平衡 , 是 否 要 求 部 分 匹配 ， 
以 及 实际 上 有 多 少 项 被 找到 。 我 们 提出 三 个 结果 , 它们 已 经 得 到 证 明 。 

对 于 理想 平衡 树 , 一 次 范围 查询 要 报告 MM 次 匹配 在 最 坏 情形 下 可 能 花费 0(M+VN) 时 间 。 
在 任 一 节点 , 我 们 可 能 必须 要 访问 4 个 孙子 中 的 两 个 , 于 是 成 立方 程 T(N) 22T(N/4) +0(1)。 
然而 在 实践 中 , 这 些 查找 趋向 于 非常 有 效 , 其 至 最 坏 情形 都 不 是 那么 差 , 因为 对 于 典型 的 N, 在 
VN 和 log N 之 间 的 差 被 隐藏 于 大 0 记号 中 的 更 小 的 常数 所 补偿 5 一 一 一 一 

对 于 随机 构造 的 树 , 部 分 匹配 查询 的 平均 运行 时 间 为 O(M+N"), HEP a= ( -3+V17)/2。 
最 近 多 少 令 人 震惊 的 结果 是 它 基 本 上 描述 了 随机 2-d 树 的 一 次 范围 查找 的 平均 运行 时 间 。 

对 于 上 维 的 情况 , 同样 的 算法 仍然 成 立 ; 我 们 通过 每 层 上 的 那些 关键 字 进 行 循环 。 不 过 ， 
在 实践 中 平衡 开始 变 得 越 来 越 差 , 因为 重复 元 和 非 随机 输入 的 影响 一 般 变 得 更 为 明显 。 我 们 把 
编程 的 细节 留 给 读者 作为 练习 而 只 叙述 解析 结果 : 对 于 理想 平衡 树 , 一 次 范围 查询 的 最 坏 情 形 
运行 时 间 为 0(M+kN'““)。 在 随机 构造 的 kd 树 中 , 涉及 k 个 关键 字 中 的 p 个 关键 字 的 部 分 匹 
配 查 询 花 费 0(M+N"), 其 中 是 方程 

(2+a)’(1+a)*” =2' 
(唯一 ) 的 正 根 。 对 各 种 p Ak, a 的 计算 留 作 练 习 ; k 22 和 p=1 的 值 反映 在 上 面 对 于 随机 2-d 
树 的 部 分 匹配 所 叙述 的 结果 中 。 

虽然 有 几 种 新 奇 的 结构 支持 范围 查找 , 但 是 kd 树 丽 怕 是 达到 可 接受 的 运行 时 间 的 最 简单 

的 结构 。 


12.6 配对 堆 


我 们 考查 的 最 后 一 个 数据 结构 是 配对 堆 (pairing heap)。 对 配对 堆 的 分 析 仍 然 未 解决 , 不 
it, 当 需 要 decreaseKey 操作 的 时 候 , 它 似乎 胜 过 其 他 的 堆 结 构 。 它 的 高 效率 的 最 可 能 的 原 
因 是 它 的 简单 性 。 配 对 堆 被 表示 成 堆 序 树 。 图 12-42 显示 一 个 配对 堆 示 例 。 

配对 堆 的 具体 实现 用 到 第 4 章 中 所 讨论 的 左 儿 子 、 右 兄弟 表示 方法 。 我 们 将 看 到 ， 
decreaseKey 操作 要 求 每 个 节点 包含 一 个 附加 的 链 。 作 为 最 左 儿 子 的 节点 含有 一 个 指向 其 父 
亲 的 链 ; 否则 ， 这 个 节点 就 是 一 个 右 兄弟 并 含有 一 个 指向 它 的 左 兄弟 的 链 。 我 们 将 把 这 个 域 叫 
fE prev 域 。 为 了 简洁 我 们 省 去 类 构架 和 配对 堆 节 点 声明 , 它们 完全 是 直观 的 。 图 12-43 指出 
图 12-42 中 的 配对 堆 的 具体 表示 。 





图 12-42 示例 配对 堆 : 抽象 表示 法 图 12-43 左面 的 配对 堆 的 具体 表示 


我 们 以 概述 基本 操作 开始 。 为 了 合并 两 个 配对 堆 , 我 们 使 具有 较 大 根 的 堆 成 为 具有 和 较 小 根 
的 堆 的 左 儿子 。 当 然 , 插入 是 合并 的 特殊 情形 。 为 执行 一 次 decreasekey, 我 们 降低 相应 的 
节点 的 值 。 因 为 对 于 所 有 的 节点 都 将 不 保留 父 链 , 所 以 我 们 不 知道 这 是 否 会 破坏 堆 序 。 于 是 ， 
我 们 将 调整 后 的 节点 从 它 的 父 节 点 切除 , 通过 合并 所 得 到 的 两 个 堆 而 完成 decreaseKey $ 
作 。 为 了 执行 deleteMin, 我 们 将 根除 去 , 得 到 堆 的 一 个 集合 。 如 果 根 有 c 个 儿子 , BAMA 
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并 过 程 进行 c -1 次 调用 将 重建 该 堆 。 这 里 , 最 重要 的 细节 就 是 用 于 执行 合并 的 方法 以 及 如 何 应 


用 c-1 次 合并 。 

图 12-44 显示 如 何 将 两 个 子 堆 合并 。 这 个 过 
程 可 被 推广 到 允许 第 二 个 子 堆 有 兄弟 的 情形 。 我 
们 早先 提 到 过 , 可 以 让 具有 较 大 根 的 子 堆 成 为 男 
一 个 子 堆 的 最 左边 的 儿子 。 程 序 很 简单 ， 如 
图 12-45 所 示 。 注 意 , 我 们 有 几 个 例子 , 在 这 些 
例子 中 , 在 给 一 个 节点 的 引用 赋予 prev 域 之 前 
要 测试 它 是 否 是 null; 这 使 我 们 想到 ， 有 一 个 
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nullNode 警戒 标记 或 许 是 有 用 的 ,， 它 习惯 上 放 在 本 章 的 查找 树 的 实现 中 。 
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* Internal method that is the basic operation to maintain order. 
Links first and second together to satisfy heap order. 
@param first root of tree 1, which may not be null. 
first.nextSibling MUST be null on entry. 
@param second root of tree 2, which may be null. 
@return result of the tree merge. 


private PairNode<AnyType> compareAndLink( PairNode<AnyType> first, 


PairNode<AnyType> second ) 


if( second.element.compareTo( first.element ) < 0 ) 


// Attach first as leftmost child of second 
second.prev = first.prev; 


first.nextSibling = second.leftChild; 

if( first.nextSibling != null ) 
first.nextSibling.prev = first; 

second.leftChild = first; 


// Attach second as leftmost child of first 


first.nextSibling = second.nextSibling; 
if( first.nextSibling != null ) 
first.nextSibling.prev = first; 
second.nextSibling = first. leftChild; 
if( second.nextSibling != null ) 
second.nextSibling.prev = second; 
first.leftChild = second; 


配对 堆 : 合并 两 个 子 堆 的 例 程 
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decreaseKey 需要 一 个 位 置 对 象 , 它 就 是 PairNode 实现 的 接口 。 图 12-46 显示 PairNode 
类 和 Position 接口 , Tí] ET: PairingHeap 类 中 。 


public class PairingHeap<AnyType extends Comparable<? super AnyType>> 
{ 

/** 

* The Position interface represents a type that can 

* be used for the decreaseKey operation. 

*/ 

public interface Position<AnyType> 


{ 
AnyType getValue( ); 


private static class PairNode<AnyType> implements Position<AnyType> 


{ 


public PairNode( AnyType theElement ) 
{ element = theElement; leftChild = nextSibling = prev = null; } 


public AnyType getValue( ) 
( return element; ) 


public AnyType element; 
public PairNode<AnyType> leftChild; 
public PairNode<AnyType> nextSibling; 
public PairNode<AnyType> prev; 


private PairNode<AnyType> root; 
private int theSize; 


// Rest of class follows 





12-46 PairingHeap 类 中 的 PairNode 类 和 Position 接口 


此 时 ，insert 和 decreaseKey 操作 是 抽象 描述 的 简单 实现 。 由 于 当 一 项 最 初 被 插入 时 
它 的 位 置 是 确定 的 (不 能 改变 ), 因此 insert 将 它 所 创建 的 PairNode 返回 给 调用 者 。 程 序 如 
图 12-47 所 示 。 如 果 新 的 关键 字 值 不 小 于 旧 的 关键 字 , 那么 decreasekey 的 例 程 抛 出 一 个 异 
常 ; 否则 , 结果 得 到 的 结构 可 能 不 遵守 堆 序 。 基 本 的 deleteMin 过 程 由 抽象 描述 直接 得 到 , 如 
图 12-48 所 示 。 这 里 的 element 域 设置 成 null, 因此 , 如果 Position 用 在 decreaseKey 
tH, 那么 decreaseKey 就 将 有 可 能 检测 到 Position 不 再 是 合法 的 。 

Insert into the priority queue, and return a Position 
* that can be used by decreaseKey. Duplicates are allowed. 


* @param x the item to insert. 
* @return the Position (PairNode) containing the newly inserted item. 


xj 





图 12-47 配对 堆 : insert Jj ik fll GecreasekKey 方法 
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7 public Position<AnyType> insert( AnyType x ) 

8 { 

9 PairNode<AnyType> newNode = new PairNode<>( x ); 

10 

11 if( root == null ) 

12 root = newNode; 

T3 else 

14 root = compareAndLink( root, newNode ); 

15 

16 theSizet++; 

Lf return newNode; 

18 } 

19 
20 [** 
21 * Change the value of the item stored in the pairing heap. 
22 * @param pos any Position returned by insert. 
23 * (param newVal the new value, which must be smaller than the currently stored value. 
24 * @throws IllegalArgumentException if pos is null, deleteMin has 
25 * been performed on pos, or new value is larger than old. 
26 x/ 
27 public void decreaseKey( Position<AnyType> pos, AnyType newVal ) 
28 ( 
29 PairNode<AnyType> p = (PairNode<AnyType>) pos; 
30 
3l if( p == null || p.element == null || p.element.compareTo( newVal ) < 0 ) 
32 throw new IllegalArgumentException( ); 
33 
34 p.element = newVal; 
35 if( p != root ) 
36 { 
37 if( p.nextSibling != null ) 
38 p.nextSibling.prev = p.prev; 
39 if( p.prev.leftChild == p ) 

40 p.prev.leftChild = p.nextSibling; 

41° else 

42 p.prev.nextSibling = p.nextSibling; 

43 

44 p.nextSibling = null; 

45 root = compareAndLink( root, p ); 

46 } a 





图 12-47 (£X) 


/** 
* Remove the smallest item from the priority queue. 
* @return the smallest item. 


* @throws UnderflowException if pairing heap is empty. 


*/ 





图 12-48 配对 堆 deletMin 
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public AnyType deleteMin( ) 
{ 
if( isEmpty( ) ) 
throw new UnderflowException( ); 


AnyType x = findMin( ); 
root.element = null; // null it out in case used in decreaseKey 
if( root.leftChild == null ) 
root = null; 
else 
root = combineSiblings( root.leftChild ); —— 


theSize--; 
return x; 





图 12-48 (9X) 


当然 ,麻烦 在 于 一 些 细节 上 : combineSiblings 如 何 实现 ? 已 经 提出 几 种 变化 , 但 是 都 
不 能 证 明 它 们 能 够 提供 如 斐 波 那 契 堆 那样 相同 的 摊 还 界 。 最 近 已 经 证 明 , 事实 上 几乎 所 有 提出 
的 方法 在 理论 上 都 不 如 斐 泌 那 契 堆 有 效 。 即 使 这 样 ， 对 于 涉及 大 量 decreasekey 操作 的 一 般 
图 论 应 用 来 说 , 图 12-49 中 编写 的 方法 似乎 总 是 与 其 他 堆 结 构 一 样 运行 甚至 比 它们 (包括 二 又 
堆 ) 还 好 。 

这 种 方法 是 已 经 提出 的 许多 变形 方法 中 最 简单 和 最 实际 的 方法 , 我 们 称 之 为 两 趟 合并 法 
(two-pass merging) 。 首 先 , 我 们 从 左 到 右 扫 描 , 合并 诸 儿 子 对 。 “在 第 一 次 扫 措 之后, 还 有 一 半 
数量 的 树 要 合并 。 然 后 执行 第 二 趟 扫描 , 但 从 右 到 左 。 在 每 一 步 , 我 们 将 第 一 次 扫描 剩 下 的 最 
右边 的 树 和 当前 合并 的 结果 合并 。 例 如 , 如 果 有 S 个 儿子 c, 到 c, 那么 第 一 次 扫描 进行 c, 和 
cy 6, 和 cy cs Ale, cs File, 的 合并 。 结 果 得 到 di , d,, d, 和 ds。 通过 合并 d, Md, 执行 第 二 趟 
扫描 ; 然后 d, 和 这 个 结果 合并 , 最 后 d, 再 和 刚 得 到 的 结果 合并 。 


/** 

x Internal method that implements two-pass merging. 

* @param firstSibling the root of the conglomerate; 

* assumed not null. 

*/ 
private PairNode<AnyType> combineSiblings( PairNode<AnyType> firstSibling ) 
{ 


~ 


if( firstSibling.nextSibling == null ) 
return firstSibling; 


con nu 


// Store the subtrees in an array 
int numSiblings = 0; 
for( ; firstSibling != null; numSiblings++ ) 


{ 


treeArray = doublelfFull( treeArray, numSiblings ); 
treeArray[ numSiblings ] = firstSibling; 





图 12-49 配对 堆 : 两 趟 合并 法 


O 如果 有 奇数 个 儿子 我 们 必须 仔细 。 此 时 ， 将 最 后 一 个 儿子 与 最 右边 的 合并 结果 合并 以 完成 第 一 趟 扫描 。 
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17 firstSibling.prev.nextSibling = null; // break links 

18 firstSibling = firstSibling.nextSibling; 

19 } 

20 treeArray = doublelfFull( treeArray, numSiblings ); 

2t treeArray[ numSiblings ] = null; 

22 

23 // Combine subtrees two at a time, going left to right 

24 int i = 0; 

25 for( ; i + 1 < numSiblings; i += 2 ) 

26 treeArray[ i ] = compareAndLink( treeArray[ i ], treeArray[ i +1] ); 
27 

28 // j has the result of last compareAndLink. 

29 // If an odd number of trees, get the last one. 

30 int j =i-2; 

31 if( j == numSiblings - 3 ) 

32 treeArray[ j ] = compareAndLink( treeArray[ j ], treeArray[ j + 2] ); 
33 

34 // Now go right to left, merging last tree with 

35 // next to last. The result becomes the new last. 

36 for( ; j >= 2; j = 2.) 

37 treeArray[ j - 2 ] = compareAndLink( treeArray[ j - 2 ], treeArray[ j ] ); 
38 

39 return (PairNode<AnyType>) treeArray[ 0 ]; 

40 } 

4] private PairNode<AnyType> [ ] 

42 doubleIfFull( PairNode<AnyType> [ ] array, int index ) 

43 { 

44 if( index == array.length ) 

45 { 

46 PairNode<AnyType> [ ] oldArray = array; 


array = new PairNode[ index x 2 ]; 
for( int i = 0; i < index; i++ ) 
array[ i ] = oldArray[ i ]; 
} 


return array; 


// The tree array for combineSiblings 
private PairNode<AnyType> [ ] treeArray = new PairNode[ 5 ]; 





图 12-49 (4) 


这 里 的 实现 方法 要 求 数组 存储 诸 子 树 。 在 最 坏 情 形 下 , 可 能 有 NN -1 项 都 是 根 的 儿子 , 但 是 
在 combineSiblings 方法 的 内 部 声明 一 个 大 小 为 N 的 数组 将 给 出 一 个 O(N) 算 法 。 因 此 , 我 
们 用 一 个 扩大 的 数组 来 代替 。 

其 他 一 些 合并 方法 在 练习 中 讨论 。 唯 一 简单 且 容 易 看 出 不 足 的 合并 方法 是 从 左 到 右 单 趟 合 
并 ( 见 练习 12.29)。 配 对 堆 是 “简单 即 更 好 ”的 一 个 好 例子 , 而 且 它 似乎 是 要 求 
decreaseKey 或 merge 操作 的 一 些 重大 应 用 所 适合 的 方法 。 


小 结 
在 这 一 章 , 我 们 看 到 二 又 查找 树 几 种 有 效 的 变种 。 自 顶 向 下 伸展 树 提供 了 O(log NN) 的 挫 还 
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TERE, treap 树 给 出 O(log N) 随机 化 的 性 能 ,而 红 黑 树 给 出 对 基本 操作 的 O(log N) 最 坏 情形 性 
能 。 各 种 结构 之 间 的 比较 涉及 代码 复杂 性 、 删 除 的 简易 性 以 及 不 同 的 查找 和 插入 的 开销 。 很 难 
说 哪 种 结构 是 明显 的 赢家 。 复 议 的 论题 包括 树 的 旋转 以 及 标记 节点 的 使 用 以 避免 对 null 引用 
的 许多 恼人 的 测试 , 若 不 是 用 标记 节点 则 这 些 测 试 原本 是 必 不 可 少 的 。 

后 级 树 和 数组 是 一 种 强大 的 数据 结构 ， 可 以 对 一 段 固定 的 文本 进行 快速 的 重复 查找 。 即 使 
理论 的 界 不 是 最 优 的 , k-d 树 还 是 提供 了 执行 范围 查找 的 实际 方法 。 

最 后 , 我 们 描述 配对 堆 并 将 配对 堆 编程 它 似乎 是 最 实际 的 可 合并 的 优先 队列 , 特别 是 当 
需要 decreaseKey 操作 的 时 候 。 Ait, TEBE EE BCE A USE AB RE 


练习 


12. 1 
7 12:2 


12. 3 
12.4 
12.5 
12. 6 
12. 7 
12.8 


12.9 


证 明 自 顶 向 下 展开 的 挫 还 时 间 为 0(log N) 。 
证 明 对 于 从 底 向 上 展开 存在 每 次 访问 需要 2log N 次 旋转 的 访问 序列 。 证 明 类 似 的 结果 对 于 自 顶 
向 下 的 展开 也 成 立 。 
修改 伸展 树 以 支持 对 第 上 个 最 小 项 的 查询 。 
从 经 验 上 比较 简化 的 自 项 向 下 展开 和 原始 描述 的 自 顶 向 下 展开 。 
编写 关于 红 黑 树 的 删除 过 程 。 
证 明 红 黑 树 的 高 度 最 多 为 2log N, 并 证 明 这 个 界 实质 上 不 能 再 降低 。 
证 明 每 一 棵 AVL 树 都 可 以 被 涂 成 红 黑 树 。 所 有 的 红 黑 树 都 是 AVL 树 吗 ? 
对 下 列 输入 字符 串 画 出 后 缀 树 ， 并 且 给 出 后 级 数组 和 LCP 数组 : 
a ABCABCABC 
b. MISSISSIPPI 
后 缀 数组 一 旦 建立 ， 从 图 12-32 就 可 以 调用 图 12-50 展示 的 短 例 程 ， 来 创建 最 长 公共 前 级 数组 。 
a. 在 代码 中 ，rank[ HIERA? 
b. 设 LcP[rank[i]] =h。 WEB] LCP[rank[i +1]]=h-1, 
c. 证 明 图 12-50 中 的 算法 正确 地 计算 了 LCP 数组 。 
d. 证 明 图 12-50 中 的 算法 的 运行 时 间 是 线性 的 。 
设 在 线性 时 间 的 后 级 数组 构建 算法 中 ， 我 们 不 是 建立 三 个 组 ， 而 是 建立 七 个 组 ， 对 =0，1， 
2,3,4,5, 6, 使 用 
S = «S[7i -k]S[7i ck -1]S(7i -k2]-- S(7i-k«6], | i20, 1, 2, ==> 
a. 证 明 对 S,S,S, 做 一 次 递归 调用 ， 我 们 就 得 到 了 充分 的 信息 ， 可 以 对 其 他 四 个 组 Sy. Si S, 
和 S, 进行 排序 。 
b. 证 明 这 样 的 划分 可 以 得 到 线性 时 间 的 算法 。 
通过 使 用 一 个 栈 来 非 递 归 地 实现 treap 树 的 插入 例 程 。 这 种 努力 值得 吗 ? 
通过 使 用 访问 次 数 作为 优先 级 并 在 每 次 访问 后 需要 时 执行 一 些 旋转 ,我 们 可 以 使 treap 树 成 为 
是 自 调整 的 。 将 这 种 方法 和 随机 化 方法 进行 比较 。 另 外 , 也 可 在 每 次 访问 一 项 蕊 时 生成 一 个 随 
机 数 。 如 果 这 个 数 小 于 工 当 前 的 优先 级 , 那么 就 用 它 作 为 X 的 新 的 优先 级 (执行 相应 的 旋转 ) o 
证 明 : 如 果 把 各 项 排序 , 那么 即使 优先 级 并 未 排序 ,treap 树 也 可 以 以 线性 时 间 构 造 。 
不 使 用 nullNode 标记 实现 红 黑 树 结构 。 使 用 标记 可 以 节省 多 少 编程 工作 ? 
假设 对 于 每 个 节点 我 们 存储 其 子 树 中 的 nul1l 链 的 个 数 ; 称 之 为 节点 的 权 (weight) 。 采 用 下 列 
方法 : 如 果 左 子 树 和 右 子 树 的 权 相 差 超出 因子 2, 那么 彻底 重建 根 在 该 节点 的 子 树 。 证 明 下 列 
结论 : 
a. 能 够 以 0(5) 重 建 一 个 节点 , 其 中 5 是 该 节点 的 权 。 
b. 该 算法 每 次 插入 操作 的 挫 还 时 间 为 O(log N) 。 
c. 我 们 能 够 以 OCS log S) tla] fe k-d 树 中 重建 一 个 节点 , 其 中 5 是 该 节点 的 权 。 
d. 可 以 将 该 算法 用 于 k-d 树 ,其 每 次 插入 的 代价 为 Oog N) 
假设 我 们 对 任意 一 棵 2-d 树 调用 rotatewithLeftchi1d。 详细 解释 其 结果 不 再 是 一 棵 可 用 的 
2-d 树 的 全 部 原因 。 
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/* 
* Create the LCP array from the suffix array 
* @param s the input array populated from 0..N-1, with available pos N 
* (param sa the already-computed suffix array 0..N-1 
* (param LCP the resulting LCP array 0..N-1 
*/ 
public static void makeLCPArray( int [ ] s, int [ ] sa, int [ ] LCP ) 
{ 


O0 4 DNR WD 


int N = sa.length; 
int [ ] rank = new int[ N ]; 


s[ N] = -1; 
for( int i = 0; i < N; ie ) 
rank[ sal i] ] = i; 


int h = 0; 
for( int i = 0; i < N; i++ ) 
if( rank[ 1] > 0) 
{ 
int j = sal rank[ 1] - 1]; 


while(s[ i*h]--s[j*h]) 
htt; 


LCP[ rank[ i ] ] = h; 
if(h»0) 
h--; 





图 12-50 ”从 后 缀 数组 建立 LCP 数组 


12.17 EMRIT k-d 树 的 插入 和 范围 查询 。 不 要 使 用 递归 。 

12.18 ”对 于 对 应 于 k=3, 4,5 的 p HHE, 确定 部 分 匹配 查询 的 时 间 。 

12.19 ”对 于 一 棵 理想 平衡 kd 树 , 求 出 文中 引用 的 一 次 范围 查询 的 最 坏 情 形 运 行 时 间 。 

12.20 2-d 堆 (2-d heap) 是 允许 每 一 项 拥有 两 个 单独 关键 字 的 一 种 数据 结构 。deleteMin 可 以 对 于 这 
两 个 关键 字 中 的 任 一 个 执行 。2-d 堆 是 具有 下 述 性 质 的 完全 二 义 树 : 对 于 偶数 深度 上 的 任 一 节 
点 好 :存储 在 叉 上 上 的 项 拥有 它 的 子 树 上 最 小 的 1 号 关键 字 , 而 对 于 奇数 深度 上 的 任 一 节点 六 , 存 
储 在 XX 上 的 项 具有 它 的 子 树 上 最 小 的 2 号 关键 字 。 

a. 画 出 关于 (1，10) (2, 9), (3, 8), (4, 7), ，(5，6) 诸 项 的 一 个 可 能 的 2-d 堆 。 

.如 何 找 出 具有 最 小 1 号 关键 字 的 项 ? 

c， 如 何 找 出 具有 最 小 2 号 关键 字 的 项 ? 

d. 给 出 一 个 将 一 新 的 项 插入 到 2-d 堆 中 的 算法 。 

e. 给 出 一 个 对 于 任 一 关键 字 执 行 aeleteMin 操作 的 算法 。 
f 给 出 一 个 以 线性 时 间 实 施 buildHeap 的 算法 。 

12.21 将 前 面 的 练习 推广 以 得 出 一 个 二 d 堆 , 在 这 个 堆 中 每 一 项 都 可 有 上 个 单独 关键 字 。 你 应 该 能 够 
得 到 下 列 的 界 : 以 0(log N) 实 施 insert, 以 0(24og N) Xii deleteMin, 以 及 以 OCEN) EMR 
buildHeap, 

12.22 证 明太 4 堆 可 以 用 于 实现 双 端 优先 队列 。 


— 
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12. 23 


12. 24 
12. 25 
12. 26 


"12:21 


12. 28 


I2. 29 


12. 30 
12. 31 


12. 32 


12. 33 


12. 34 





抽象 地 推广 大 d 堆 使 得 只 有 那些 按照 1 号 关键 字 分 支 的 层 有 两 个 儿子 (所 有 其 他 层 都 有 一 个 
JLF Je 

a. 我 们 需要 链 吗 ? 

b. 显然 , 那些 基本 算法 仍然 有 效 , 它们 新 的 时 间 界 是 多 少 ? 

使 用 kd 树 实现 aeleteMin。 对 于 随机 树 , 你 期 望 其 平均 运行 时 间 是 多 少 ? 

使 用 ka 堆 实 现 双 端 队列 , 该 队列 也 支持 deleteMin 操作 。 

使 用 nullNode 标记 实现 配对 堆 。 

证 明 : 对 于 课文 中 的 配对 堆 算 法 , 每 次 操作 的 挫 还 时 间 为 O(log N) 。 

combineSiblings 的 另 一 种 方法 是 把 所 有 的 兄弟 都 放 到 一 个 队列 中 , 并 反复 dequeue RF 
并 队列 中 的 前 两 项 , 把 结果 放 到 队 尾 。 实 现 这 种 方法 。 

在 前 面 的 练习 中 不 用 队列 而 使 用 栈 不 是 个 好 主意 , 通过 给 出 二 不 序列 导致 每 次 操作 花费 ON) 
来 给 出 论证 。 这 就 是 从 左 到 右 单 趟 合并 。 

不 用 decreaseKey 操作 ， 也 可 以 除去 父 链 。 使 用 斜 堆 效果 会 如 何 ? 

设 下 列 每 一 问 都 可 以 表示 成 一 棵 具有 儿子 的 引用 和 父亲 的 引用 的 树 。 解 释 如 何 实现 
decreasekey 操作 。 

a. ONHE 

b. 伸展 树 

当 用 图 形 观 察 时 , 2-d 树 上 的 每 个 节点 都 把 平面 划分 成 一 些 区域 。 例 如 , 图 12-51 显示 对 图 12- 
39 中 的 2-d 树 的 前 5 次 插入 。 第 一 次 插入 pl 把 平面 分 成 左右 两 部 分 。 第 二 次 插入 p2 又 将 左 部 
分 分 成 上 下 两 部 分 , 等 等 。 

a. AE N Jit, 它们 插入 的 顺序 是 否 影响 最 后 的 划分 ? 

b， 如 果 两 个 不 同 的 插入 序列 得 到 相同 的 树 , 那么 对 应 的 划分 是 否 相同 ? 

e. 给 出 经 过 入 次 插入 之 后 所 划分 的 区 域 个 数 的 公式 。 

d. 指出 图 12-39 中 的 2-d 树 的 最 后 的 划分 。 


图 12-51 平面 由 2-d 树 在 插入 pl = (53, 14), p2=(27, 28), p3=(30, 11), 
pA = (67, 51), pS =(70，3) 后 所 得 到 的 划分 


2-d 树 的 一 种 变化 是 四 分 树 ( quad tree) 。 图 12-52 显示 平面 是 如 何 被 一 棵 四 分 树 划 分 的 。 开 始 
时 我 们 有 一 个 区 域 ( 它 常常 是 一 个 方块 , 但 不 是 必需 的 ) 。 每 个 区 域 可 存储 一 个 点 。 如 果 将 第 2 
个 点 插入 到 区 域 中 , 那么 区 域 就 被 划分 成 4 块 相等 大 小 的 象限 (右上 , AF, 左下 , 左上 )。 如 
果 能 够 把 点 放 在 不 同 的 象限 中 (如 在 p2 插 人 时 的 情形 ), 那么 插入 完成 ; 否则 , 我 们 继续 递归 地 
分 裂 区 域 (就 像 插 入 p5 时 所 做 的 那样 ) 。 

a. SRE IN JL, 插入 的 顺序 是 否 影 响 最 后 的 划分 ? 

b. 如 果 把 在 图 12-39 的 2-d 树 中 那些 相同 的 元 素 插 入 到 四 分 树 中 , 指出 最 后 的 划分 。 








图 12-52 平面 由 四 分 树 (quad tree) 在 插入 pl =(53, 14), p2=(27, 28), 
p3 2 (30, 11), p4 2 (67, 51), 的 =(70,，3) 后 所 得 到 的 划分 


树 的 数据 结构 可 以 存储 四 分 树 。 我 们 保留 原始 区 域 的 边界 。 树 的 根 表示 原来 的 区 域 。 每 个 节点 
或 者 是 一 片 树叶 , 存放 一 个 插入 项 , 或 者 刚好 有 4 个 儿子 , 代表 4 个 象限 。 为 了 进行 查找 , 我 们 
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从 根 处 开始 并 反复 分 支 到 相应 的 象限 ,直到 到 达 一 片 树叶 (或 是 null 项 ) 为 止 。 
a. 画 出 对 应 图 12-52 的 四 分 树 。 

b. 哪些 因素 影响 ( 四 分 ) 树 的 深度 ? 

c. 描述 一 种 算法 , 使 在 一 棵 四 分 树 中 执行 一 次 正 交 范围 查寻 。 
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后 级 树 首次 被 Weiner[ 41 ] 描述 为 位 置 树 ( position tree) ， 他 提供 了 一 种 线性 时 间 的 构建 算法 ,该 算法 
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后 缀 数组 是 由 Manber 和 Myers[ 25 ] 描 述 的 。 文 中 给 出 的 算法 归功 于 Kärkkäinen 和 Sanders[21]; 男 一 
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构建 算法 的 综述 另 见于 [5] 。 

k-d 树 首先 在 [7] 中 介绍 。 其 他 的 范围 查找 算法 在 [8] 中 描述 。 在 平衡 kd 树 上 范围 查找 的 最 坏 情形 
在 [24] 中 得 到 , 而 书 中 引用 的 平均 情形 结果 来 自 [14] 和 [10]。 

配对 堆 及 在 练习 中 提出 的 一 些 变化 在 [17] 中 描述 。 论 文 [20] 提 出 伸展 树 是 在 不 需要 decreaseKey 操 
作 时 适合 选择 的 优先 队列 。 另 外 一 篇 论文 L37] 提 出 配对 堆 达 到 与 斐 波 那 契 堆 相同 的 渐进 界 但 在 实践 中 性 
能 更 好 。 然 而 , 一 篇 使 用 优先 队列 实现 最 小 生成 树 算法 的 相关 论文 [29] 提出 decreaseKey 的 摊 还 时 间 不 是 
O(1). M. Fredman[ 16] 通 过 证 明 存 在 使 decreaseKey 操作 的 摊 还 时 间 为 次 优 (事实 上 最 少 为 (log log N) ) 
的 序列 而 解决 了 最 优 性 问题 。 不 过 , 他 还 证 明了 ， 当 用 来 实现 Prim 最 小 生成 树 算法 时 ,如果 图 稍微 稠密 
( 即 图 中 边 的 条 数 为 OCN 17), 其 中 是 任意 的 ), 那么 配对 堆 则 是 最 优 的 。Pettie[ 32] 证 明了 decreaseKey 
的 一 个 上 界 0(27 7), Miti, 配对 堆 的 完整 分 析 仍 未 解决 。 

大 部 分 练习 的 解 可 以 在 原始 参考 文献 中 找到 。 练 习 12. 15 代表 多 少 有 些 流 行 的 一 种 "懒惰 "平衡 方法 。 
[26]、[4] 、[11] 和 [9] 描 述 一 些 特殊 的 方法 ; [2] 指 出 如 何在 一 种 框架 内 如 何 实现 所 有 这 些 方法 。 满 足 
练习 12. 15 中 的 性 质 的 树 是 加 权 平 衡 ( weight-balanced ) 的， 这些 树 也 可 通过 旋转 保持 其 特性 [30] ,问题 d 
取 自 [25]s 练习 12.20 到 12.22 的 解 可 以 在 [12] 中 找到 。 对 四 分 树 的 描述 见于 [34]。 
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preorder traversal ( 先 序 遍 历 ) , 105-106, 109, 146 
primary clustering( 一 次 聚集 ) , 179 

prime number( 素数 ) 7, 53, 483, -486 

primitive type( 基本 类 型 ) 14, 23 

priority queue( 优先 队列 ) , 225 

priority search tree( 优先 查找 树 ) 595 

probability distribution function ( 概率 分 布 函数 ) 95 
probing hash table( 探测 散 列表 ) 179-183, 188-190 


proper ancestor( 直 祖 先 ) ，102 

proper descendent( £c; f$), 102 

pruning( 裁减 ) 486, 495-498, 509 
pseudorandom number( 伪 随 机 数 ) , 476-479 
push( 进 栈 ) 83 


Q 


quad tree( 四 分 树 ) , 594 

quadrangle inequality( 四 边 形 不 等 式 ) ，501 

quadratic probing( 平方 探测 ) 181-188 

queuing theory( 排队 论 ) 95 

quickselect algorithm ( 快速 选择 算法 )，300- 302, 
456-458 

quicksort( 快速 排序 ) 288, 295 


R 


radix sort( 基数 排序 ) 311-315, 321, 564, -577 

random number generator( 随机 数 生成 器 ) 476-480, 508 

random permutation( 随机 置换 ) , 51 

randomized algorithm( 随机 化 算法 ) , 474-476 

range query( 范围 查询 ) , 481-482 

rank( fk) , 341-352, 514-538 

raw class( 原始 类 ) , 22 

recursion( 递归 ) , 8-12 

recursively undecidable( 递归 不 可 判定 的 ) 413 

red black tree( 红 黑 树 ) , 549 

reflexive( H TAY), 332 

rehashing ( HAI), 183, 188-189, 537 

relation( 关系 ) 331 

relative rates of growth( 相对 增长 率 ) ，30-31 

relaxed heap( HHE), 268 

replacement selection( 替换 选择 ) 319-320 

residual edge( 残余 边 ) , 388-389 

residual graph( 残余 图 ) ，388-389 

reverse Polish( postfix) ( 道 波 兰 记 法 (后 级 记 法 ))， 
85-87 

root( f$) , 101-102, 242-244, 302, 542 

rotation ( 旋转 ) , 124-125, 550-553, 140-145 

running time( 运行 时 间 ) , 35 


S 


satisfiability ( 可 满足 性 问题 ) 416 

saturated edges( 饱和 边 ) , 388 

secondary clustering( 二 次 聚集 ) 183 

seed( 种 子 ) , 476 

selection problem( 选择 问题 ) 300-307, 455-458 
self adjusting structure ( 自 调整 结构 )，99，122， 
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249-251, 355 
sentinel node( 标记 节点 ) 75 
separate chaining ( 分 离 链接 法 ) , 174-179 
series( 级 数 ) 4-5 
Shellsort ( 希 尔 排序 ) 274-278, 320, 327 
sibling( 兄弟 ) , 102-103 
Sieve of Eratosthenes( J.T Æ ffi), 53 
simple path( 简单 路 径 ) 359 
single rotation( 单 旋转 ) 125-128, 137-139 
single-source shortest-path problem ( 单 源 最 短路 径 问 
题 ) ，366-367 
sinks in network flow( 网 络 中 的 收 点 ) ，386 
skew heap( 斜 堆 ) ，249-251 
skip list( 跳跃 表 ) , 480-483 
slack time( 松弛 时 间 ) , 383-384 
sources in network flow( 网 络 流 中 的 发 点 ) ，386 
spanning tree( 生成 树 ) ，393-394 ，503 
sparse graph( 稀疏 图 ) 361, 377 
splay tree( 伸展 树 ) , 123, 137 
stable sorting algorithm( 稳定 的 排序 算法 ) 324 
stack( 栈 ) 83-90, 364 
Stirling’ s formula( Stirling 公式 ) ，324 
Strassen’ s algorithm( Strassen 算法 ) , 460-462 
strip( #7), 453-454 
strongly connected ( 强 连 通 ) , 359-360 
successor position ( ri E [S7 C) , 492 
suffix array( JAH), 561, 580, 591-592, 595 
suffix trees( JAZA), 541, 561-567, 590-595 
symbol table( 符号 表 ) 217 
symmetric ( 对 称 的 ) , 331 


T 


tail node( 尾 节 点 ) , 75-76 

tail recursion( Æ 19), 91, 115 

telescoping( HARMI), 286, 299 

terminal position( 终端 位 置 ) 490, 495 

thread ( 线索 ) , 166 

threaded tree( AR), 154, 166 

tick( 滴答 ) 239 

tic-tac-toe( — HE JEXE HE) , 490-495 

top-down red- black tree( 自 项 向 下 红 黑 树 ) 551-557 
top-down splay tree( 自 顶 向 下 伸展 树 ) 541-548, 594 
topological sort( 拓扑 排序 ) , 362-365 

transitive( 传递 的 ) 331 

transposition table( 变换 表 ) 218, 495 

traveling salesman problem( 巡回 售货员 问题 ) 415- 


417, 503 

treaps(treap 树 ) 558-560 

tree( $f), 101-102 

trie( 字典 树 ) , 435-439 

Turing machine( 图 灵机 ) , 417 

turnpike reconstruction problem ( 收费 公路 重建 问 
E), 487-491 

two-d heap(2-d HE) , 592 

two-d tree(2-d 树 ) , 593-594 

two-dimensional range query( 二 维 范围 查询 ) , 578-579 

two-pass mergiiig( 两 十 合并 法 ) "7 T 

type bound( 类 型 限界 ) 21-22 

type erasure( 类 型 擦 除 ) 22-23 


U 


unary minus operator( 一 目 减 运算 符 ) ，109 
undecidable problem ( 不 可 判定 问题 ) 413 
undirected graph( 无 向 图 ) 359 

union- by- height ( 按 高 度 求 并 ) 338-339, 341 
union-by-rank( 按 秩 求 并 ) ，341-342 
union-by-size( 按 大 小 求 并 ) 337-339 
universal hashing( 通 用 散 列 法 ) 211-214, 475 
unweighted path length( 无 权 路 径 长 ) ，366-373 
upper bound( 上 界 ) ，30 


V 


vertex( 顶点 ) ，361，378 


vertex cover problem( 顶点 覆盖 问题 ) , 425 
Voronoi diagram( Voronoi 图 ) , 503 


W 


weakly connected ( 弱 连 通 ) , 360 

weight( X.) , 359-361, 435-436 

weight- balanced tree( 加 权 平 衡 树 ) , 168, 595 

weighted path length ( WÈ #2 BR 4% K), 366- 367, 
372-379 

wildcard ( 通配符 ) , 19-20 

word ladders( 词 梯 游戏 ) ，384-386 

worst case analysis( 最 坏 情 形 分 析 ) 33 
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zig-zag( 2 FIG), 140-145, 531-551 
zig-zig( —FIZ) , 550, 531-544 
Ziv- Lempel encoding( Ziv- Lempel 编码 ) , 508 


